- Een kader voor het meten van de ontsnapping aan X-inactivatie in enkele cellen
- Quantifying biallelic expressie van enkele cel primaire fibroblasten
- Identifying escapees in single cell primaire fibroblasten
- Quantifying allelic expressie van klonale gefaseerde lymfoblasten
- Identifying ontsnappingen van eencellige lymfoblasten
- Vergelijking van de geïdentificeerde ontsnappingskandidaten met de huidige kennis
- LncRNA’s breiden de lijst van escapee-kandidaten uit
- Evidence-based partitie van escapee genen
Een kader voor het meten van de ontsnapping aan X-inactivatie in enkele cellen
We identificeren ontsnapte genen door het analyseren van genexpressie van somatische enkele cellen met behulp van scRNA-Seq methodologie (zie Methoden). Om de gevoeligheid van de methode te evalueren, vergelijken we X-chromosoom (ChrX) expressie met andere autosomale chromosomen. Specifiek hebben we ons gericht op de gen-rijke chromosoom 17 (Chr17) als een prototype van een autosomale chromosoom. Chr17 werd geselecteerd omdat het een chromosoom vertegenwoordigt met een minimaal aantal ouder-specifieke ingeprente genen. De kwantitatieve eigenschappen van ChrX en Chr17 worden opgesomd in Fig. 1a.
Deze studie is gebaseerd op de analyse van twee vrouwelijke oorsprongsbronnen: (i) Primaire UCF1014-fibroblasten (met 104 cellen, zie Methoden). Deze set wordt gespecificeerd door een hogere dekking transcriptomische gegevens, maar mist informatie over haplotype fasering (Fig. 1b); (ii) Een kleinere dataset van klonale lymfoblasten (n = 25) van de GM12878 cellijn met volledig gefaseerde en gesequenced ouderlijke diploïde genomen (Fig. 1c). In beide datasets is transcriptie op heterozygote SNPs (hSNPs) de bron van informatie voor het bepalen van monoallelische of biallelische expressie. Elk hSNP, in elke cel, dat wordt ondersteund door expressiebewijs boven een vooraf bepaalde drempel wordt beschouwd als een informatieve SNP (iSNP) (zie Methoden, Extra bestand 1: Tekst). De som van iSNPs per gen bepaalt zijn unieke label als geïnactiveerd of escapee gen (zie Methoden, Fig. 1b-c, Additional file 1: Text).
Quantifying biallelic expressie van enkele cel primaire fibroblasten
We analyseerden de gepubliceerde scRNA-Seq gegevens van vrouwelijke primaire menselijke fibroblasten . Vóór de analyse, we zorgden voor een experimentele valkuil die relevant zijn voor veel single-cel studies. De valkuil betreft cel dubbels waarin meer dan een cel wordt gesequenced per een bibliotheek. In een dergelijk scenario, verschillende actieve X-chromosomen (Xa) uit twee verschillende cellen die zijn opgenomen in het monster zal een biallelic signaal langs het gehele X-chromosoom. Hoewel de fractie doubletten naar verwachting klein zal zijn, kan dit tot een verkeerde interpretatie leiden. Daarom hebben we, voordat we de gegevens van de fibroblasten analyseerden, alle 104 fibroblasten opnieuw bekeken en hun biallelische verhouding ten opzichte van ChrX getest (zie Methoden). Drie cellen vertoonden een uitzonderlijk hoge mate van biallelische expressie die zou kunnen wijzen op een mengsel van twee ouderlijke X-chromosomen (Additional file 1: Text and Figure S3). We verwijderden alle drie verdachte cellen uit alle analyses.
Volgende, voor elke afzonderlijke cel, telden we het aantal leest die uniek in kaart gebracht hSNP allelen. De allelic ratio (AR) voor elke iSNP is gedefinieerd als de fractie van de leest in kaart gebracht om het alternatieve allel (Alt) uit de totale leest (zie Methoden, Additional file 2: Tabel S1). Figuur 2a-c geeft een overzicht van de AR van ChrX, Chr17, en de gehele autosomale chromosomen volgens de primaire fibroblasten collectie (101 van de 104 cellen). Bovendien Fig. 2d toont de verdeling van de AR van een geannoteerde set van ingeprente genen van huidweefsels (volgens ). Zoals eerder gerapporteerd, is er duidelijk sprake van een bias in de mapping naar het referentiegenoom (AR = 0) (Fig. 2a-d). Bovendien werd een aanzienlijke fractie monoallelische expressie waargenomen voor alle geteste sets (Fig. 2a-d). Deze dominante verschijning van monoallelische expressie in enkele cellen wordt veroorzaakt door een combinatie van zowel onderbemonstering van transcripten, als een fenomeen dat bekend staat als “transcriptional bursting”.
We hebben ons alleen gericht op iSNPs die een niet-monoallelische signatuur vertonen (d.w.z., met uitsluiting van AR = 0 en AR = 1). We zagen een duidelijk verschil in de AR verdeling van ChrX en ingeprente genen ten opzichte van Chr17 en alle autosomale chromosomen (vergelijk Fig. 2a tot b en Fig. 2c tot d). Bijgevolg kunnen verschillende observaties uit de resultaten in Fig. 2 worden getrokken: (i) Chr17 en alle autosomen hebben een vergelijkbaar AR profiel. (ii) Een duidelijke tendens naar evenwichtige expressie (AR = 0,5) is duidelijk voor alle autosomale chromosomen (Fig. 2a-b), maar niet ChrX of ingeprente genen (Fig. 2c-d). (iii) De fractie van niet-monoallelic expressie in autosomale chromosomen is hoger (~ 18%) ten opzichte van ChrX (~ 9%). (iv) De fractie van niet-monoallelische expressie in ingeprente genen vertoont een intermediair niveau (13%). Een dergelijk intermediair niveau is waarschijnlijk een weerspiegeling van de inherente inconsistentie in de identiteit van ingeprente genen. Additional file 3: Tabel S2 geeft een overzicht van de ondersteunende iSNPs voor alle geanalyseerde chromosomen in fibroblasten met inbegrip van de imprinted gen set.
Identifying escapees in single cell primaire fibroblasten
In de dataset van de primaire fibroblasten, zijn er 232 en 485 genen die worden ondersteund door iSNPs bewijs voor ChrX en Chr17, respectievelijk. Aangezien deze cellen geen informatie hebben over de fasering van het genoom (Fig. 1b), is de informatie over het ontsnappen aan het X-chromosoom beperkt tot de set van biallelische iSNPs (zie Fig. 1b). We aggregeerden de iSNPs volgens hun corresponderende genen (Fig. 1b). De aggregatie wordt uitgevoerd over verschillende afzonderlijke cellen en over meerdere iSNPs binnen een specifiek cel-gen paar. Een gen wordt als escapee kandidaat bestempeld wanneer het met meerdere biallelische iSNPs geassocieerd is. In totaal identificeerden we 24 van dergelijke genen (Tabel 1) die goed zijn voor 10,3% van alle tot expressie komende genen in ChrX. Zoals verwacht is de fractie van genen op Chr17 met biallelische expressie aanzienlijk hoger (49,3%, Additional file 4: Table S3).
Tabel 1 geeft een overzicht van de ontsnappingskandidaten in verschillende mate van ondersteuning. Bijvoorbeeld, ZFX (Zink vinger X-chromosomaal eiwit) en SMC1A (Structureel onderhoud van chromosomen eiwit 1A) genen worden sterk ondersteund met 103 en 19 biallelische iSNPs, respectievelijk. Een verdere verhoging van de betrouwbaarheid van de identificatie van escape-genen is gebaseerd op het hebben van ten minste 2 onafhankelijke cellen die informatie over biallelische expressie bijdroegen. Wij tonen aan dat 21 van de 24 genen aan dit strikte criterium voldeden (Tabel 1). Opmerkelijk is dat we onder de geïdentificeerde escapegenen slechts drie PAR-genen vonden (SLC25A6, CD99, en DHRSX, Tabel 1). De toewijzing van deze genen als escapegenen komt overeen met de verwachte PAR-expressie. Op basis van het aantal biallelische PAR-genen van de tot expressie gebrachte PAR-genen schatten we het percentage vals-negatieve ontdekkingen voor escapegenen op maar liefst 70% (d.w.z. 7 van de 10 tot expressie gebrachte PAR-genen gemist). Extra bestand 4: Tabel S3 toont de ondersteuning voor tabel 1.
Quantifying allelic expressie van klonale gefaseerde lymfoblasten
Een belangrijke beperking in het hierboven beschreven protocol betreft het ontbreken van parental haplotype fasering. In deze setting kunnen iSNPs niet worden toegewezen aan Xa of Xi. Bijgevolg is de willekeurige keuze van Xi die kenmerkend is voor primaire cellen beperkt de discovery rate voor escapees. We breidden de analyse van scRNA-Seq tot vrouwelijke lymfoblasten van de klonale cellijn GM12878. Zie Fig. 1c en Additional file 1: Figuur S4.
Figuur 3a toont het expressieprofiel voor klonale lymfoblast enkele cellen (n = 25) (Additional file 2: Tabel S1, Additional file 5: Tabel S4). In elke enkele cel weerspiegelt de monoallelische expressie de combinatie van een onderbemonstering van transcripten en het fenomeen van transcriptionele bursting . Het is duidelijk dat de maternale expressie van de Xa domineert (Fig. 3a, boven). Een observatie die overeenkomt met de gerapporteerde maternale Xa oorsprong van cellijn GM12878 . In de meeste van de geanalyseerde cellen, een kleine maar substantiële fractie van de gemeten totale expressie is van de vaderlijke, Xi chromosoom (Fig. 3a, boven). Chr17 en de autosomale chromosomen daarentegen vertonen een gelijke expressie van beide allelen (Fig. 3a, middelste en onderste panelen).
Uit de figuur is het duidelijk dat het fenomeen van transcriptionele burst alle chromosomen met inbegrip van ChrX beïnvloedt. Voor de beoordeling van de impact van dit fenomeen op het identificeren van genen als ontsnapte, vergeleken we enkele cellen met betrekking tot een pool van cellen (Pool100, Fig. 3a, rechter balk). Terwijl de meerderheid van de iSNPs van Chr17 vertonen biallelic profielen, ChrX blijft gedomineerd door een maternale monoallelic expressie.
Figuur 3b is een geaggregeerde weergave van ChrX, Chr17 en de autosomale chromosomen. De gegevens zijn gebaseerd op 375, 808 en 20.212 tot expressie gebrachte hSNPs, respectievelijk. Figuur 3b (midden en rechter panelen) toont een gelijke verdeling van de ouderlijke allelen van Chr17 en autosomale chromosomen (Fig. 3b, boven). Het uitvoeren van dezelfde analyse op gegevens verzameld van Pool100 (Fig. 3c) laat zien dat de verdeling van de ouderlijke allelen vrijwel ongewijzigd blijft (vergelijk de fractie bezet door roze en blauwe kleuren, Fig. 3b-c). Bovendien hebben we een verschuiving waargenomen van een mono-allelische (Fig. 3b-c, gevulde kleur) naar een biallelische expressie (Fig. 3b-c, gestreepte kleur). De fractie van de biallele expressie voor Ch17 steeg van 19% in enkele cellen tot 80% in Pool100, en voor autosomale chromosomen van 18 tot 79% (Fig. 3c, midden en rechter panelen). De resultaten van Pool100 geven aan dat de monoallelic expressie waargenomen in enkele cellen wordt vrijwel afgeschaft door het gemiddelde van het signaal.
De resultaten van ChrX (Fig. 3b (links) zijn fundamenteel verschillend ten opzichte van Chr17 of de autosomale chromosomen (Fig. 3b-c). Het meest opvallende verschil is dat slechts 21% van de uitgedrukte iSNPs geassocieerd zijn met het vaderlijke Xi allel in ChrX (Fig. 3b, boven). Bovendien blijft bij de analyse van Pool100 de fractie van biallelische expressie begrensd (een verschuiving van 9% in enkele cellen naar 34% in Pool100). Het waargenomen patroon van ChrX van Pool100 (Fig. 3c, links) is het best te verklaren door een gemiddelde van de stochastische monoallelic signaal (in dezelfde mate als de andere chromosomen) met behoud van een sterk signaal van de Xa monoallelic expressie. Zie Additional file 5: Tabel S4 voor lymfoblasten allelic ratio van alle geteste chromosomen en de Pool100.
Identifying ontsnappingen van eencellige lymfoblasten
Figuur 4a is een gen-centric view dat de iSNP allelic verdeling van lymfoblasten (gekleurd volgens hun oorsprong als maternale, vaderlijke of gemengde expressie, zie Methoden) toont. Alleen de subset van genen die worden ondersteund door meerdere iSNPs is vermeld volgens hun geordend langs de chromosomen. In totaal rapporteren we over 93 geannoteerde genen op ChrX (Fig. 4a, 30 escape genen en 63 geïnactiveerde genen). Merk op dat de X-geïnactiveerde genen genen zijn die voornamelijk tot expressie komen vanuit de maternale Xa. Een cluster van genen met een vaderlijke expressie aan het uiteinde van de ChrX p-arm vertegenwoordigt de verwachte biallelische expressie van de PAR genen (Fig. 4a). Aanvullend bewijs voor vaderlijke expressie is gelokaliseerd op de XIC met genen zoals XIST, JPX, en FTX. Terwijl de meeste escapegenen door een beperkt aantal iSNPs worden ondersteund, worden enkele ervan, zoals ZFX, CD99 en SLC25A6, door een relatief groot aantal ondersteunende iSNPs ondersteund (respectievelijk 48, 38 en 34).
Een alternatieve methode voor het beoordelen van de omvang van het fenomeen van X-inactivering is door het kwantificeren van het bewijs direct uit de som van alle gesequenced leest (afgekort als de lees-gebaseerde protocol). Figuur 4b-c vergelijken leestellingen van Chr17 (Figs. 4b) en ChrX (Fig. 4c) door de vaderlijke versus maternale oorsprong. We vergelijken de expressiegegevens van de enkele cellen en de Pool100. De lineaire regressie voor de genexpressie van Chr17 toont een hoge correlatie fit-lijn (r2 = 0.823, Fig. 4b). Zoals verwacht, is de correlatie sterker in de gegevens afkomstig van de Pool100 (r2 = 0,946, Fig. 4b). Wij concluderen dat ondanks de monoallelische expressie als gevolg van het transcriptionele bursting fenomeen, evenwichtige allelische expressie van alle genen sterk wordt ondersteund. Voor ChrX echter is de resulterende lineaire regressie van de afzonderlijke cellen slecht (r2 = 0,238, Fig. 4c), en werd niet verbeterd door de gegevens van de Pool100 (r2 = 0,222, Fig. 4d). Inspectie van de expressiegegevens voor ChrX laat zien dat de regressielijnen in feite naar de maternale Xa expressie neigen (x-as). De expressiegegevens zijn consistent met twee verschillende regressielijnen voor ChrX. Een die overeenkomt met de geïnactiveerde genen (parallel aan de x-as), en de andere overeenkomt met een trustfully biallelic expression.
Toepassing van de conservatieve iSNP-based protocol leidt tot de identificatie van 30 genen als ontsnapte kandidaten die ook worden ondersteund door de read-based protocol (tabel 2). De read-based (d.w.z., labelen van een gen als escapee door het hebben van een minimaal aantal vaderlijke leest, zie Methoden) protocol uitgebreid de escapee kandidaat lijst tot in totaal 49 genen (Additional file 4: tabel S3).
Testing van de ouderlijke oorsprong van allelen langs een gen in dezelfde cel is een strenge test voor de betrouwbaarheid van de iSNPs. Deze test is alleen geldig voor genen met meerdere hSNPs. Dergelijke genen die met twee of meer expressieve hSNPs worden ondersteund, maken 44% van de genen uit. We beschouwen een gen als consistent als de expressie langs het gen in een specifieke cel niet monoallelisch is voor beide allelen. In totaal identificeerden we 3 inconsistente genen – TEX11, FTX, en ZCCHC16. Voor nog eens 6 genen is de inconsistentie slechts gedeeltelijk, omdat er andere waarnemingen van biallelische expressie zijn. De schatting van volledige inconsistentie (3 van de 29 genen die voor deze test in aanmerking kwamen) suggereert een bovengrens voor een foutieve interpretatie van 10%. Bovendien identificeerde het op iSNP gebaseerde protocol 9 van de 11 tot expressie gebrachte PAR-genen. Dus extrapoleren we het ontsnappingsdetectiepercentage naar 82%. Interessant is dat de analyse van Chr17, in de veronderstelling dat er geen systematische allel bias is, aantoonde dat 7,3 en 9,6% van de genen geassocieerd waren met respectievelijk maternale en paternale monoallelische expressie. Deze resultaten geven een bovengrens van 17,9% aan de waarschijnlijkheid van valse genlabeling in Chr17 en kunnen worden gebruikt voor het schatten van de beperking van de methode.
Het eisen van vaderlijk bewijs uit ten minste twee cellen vermindert het aantal ontsnapte genen van 49 tot 18 (waaronder 5 PAR-genen). Veel enkel bewijs genen die voortvloeien uit een specifieke uitbijter cel (SRR764803) die bijgedragen tot 17 van de 49 gerapporteerde genen (tabel 2, aanvullend bestand 5: tabel S4). Deze cel vertoont de hoogste expressieniveaus op zowel ChrX en Chr17 (Additional file 1: Tekst en figuur S4). Tabel 2 geeft een overzicht van de ontdekte ontsnappingskandidaten samen met hun ondersteunend bewijs (tabel 2).
Vergelijking van de geïdentificeerde ontsnappingskandidaten met de huidige kennis
We testten de correspondentie tussen de geïdentificeerde ontsnappingskandidaten uit onze studie en een op literatuur gebaseerde catalogus . Deze verenigde catalogus werd samengesteld uit de integratie van vier onafhankelijke studies die 1144 genen van ChrX omvat. De genen in deze catalogus zijn handmatig onderverdeeld in negen gedefinieerde categorieën (zie Methoden). De grootste categorie omvat de genen waarover geen informatie beschikbaar is (45%). Ongeveer 15% van de genen (168/1144) worden beschouwd als ‘ontsnapte-geassocieerd’ (zie Methoden). We beschouwen de samengestelde set van ‘escapee-geassocieerde’ genen als een gouden standaard om de ontdekkingsgraad van escapee’s in onze studie te testen (totaal 124 genen, exclusief PAR-genen, samen Balaton-Esc genoemd).
We pasten een hypergeometrische statistische test toe (zie Methoden) om de overlap van de verschillende escapee-genlijsten te beoordelen (Fig. 5). Figuur 5a toont het aantal geïdentificeerde escapegenen van de fibroblasten en lymfoblasten (exclusief PAR-genen). Merk op dat alleen genen die in de Balaton-Esc benchmark zijn opgenomen, in deze analyse zijn opgenomen (Fig. 5). Figuur 5b toont de statistische significantie van de overlapping tussen de genenlijsten van Fig. 5a en de Balaton-Esc . Zoals kan worden gezien, is er een significante overlap tussen de ontsnapte genen van lymfoblasten (tabel 2 en aanvullend bestand 4: tabel S3) en de Balaton-Esc lijst (Fig. 5b, p-waarde = 7.43E-8). Toepassing van dezelfde test voor de primaire fibroblasten (Tabel 1) resulteerde in een lagere significantie (p-waarde = 4,07E-2).
Figuur 5c toont de overlap genen tussen de escapees geïdentificeerd in onze studie en de Balaton-Esc catalogus (168 genen inclusief PAR genen) . We hebben ook een aanvullende bron op basis van 940 transcriptomen van scRNA-Seq (25 ontsnapte genen, Tukiainen-Esc) . Het Venn diagram laat zien dat elk van de bovenstaande studies bijdraagt aan de huidige kennis over ontsnapte genen. Ontsnapte genen uit de twee externe bronnen overlappen elkaar met 18 van de 25 gerapporteerde genen (72%). Zoals getoond in Fig. 5c, overlappen 62% van de gerapporteerde escapees van de lymfoblasten met de externe escapee lijsten, terwijl de fibroblasten gesteund worden door slechts 38% overlap. Opmerkelijk is dat de meeste van onze ontdekte kandidaat-escapeegenen uit fibroblasten (62%) geen overeenkomst hebben met de andere geteste lijsten (Additional file 6: Table S5).
LncRNA’s breiden de lijst van escapee-kandidaten uit
We breidden onze analyse uit tot lange niet-coderende RNA’s (lncRNA’s) met behulp van dezelfde escapee-criteria als gebruikt van coderende genen (Fig. 6). In totaal identificeerden wij 15 lncRNA’s als kandidaat-ontsnapte, waarvan er slechts enkele eerder waren bestudeerd. De locatie van de lncRNAs en coderende escapes langs ChrX wordt getoond (Fig. 6a). We testten de posities van escapees langs de ChrX ten opzichte van alle ChrX genen. Terwijl de positieverdeling voor lncRNA escapees vergelijkbaar is (Kolmogorov-Smirnov test, p-waarde = 0,57), is deze verschillend voor coderende escapees (Kolmogorov-Smirnov test, p-waarde = 0,004, Fig. 6a).
Figuur 6b bevat een lijst met alle 15 geïdentificeerde lncRNA-ontsnapte genen, waaronder ncRNA-genen uit het XIC die de activering en het onderhoud van X-inactivatie coördineren. Veel van de lncRNA’s zijn gelokaliseerd op transcriptioneel actieve segmenten (b.v. binnen de PAR of de XIC), terwijl andere gelokaliseerd zijn in niet-geconserveerde regio’s die verrijkt zijn met lange en korte ncRNA’s. Voor extra lncRNA’s, met inbegrip van geïnactiveerde genen zie Additional file 7: Tabel S6.
Evidence-based partitie van escapee genen
Figuur 6c vat de partitie volgens het bewijs voor alle genen die zijn gerapporteerd met enig niveau van vertrouwen als ontsnapte genen (Additional file 6: Tabel S5). Deze lijst omvat 75 kandidaten die zijn gemeld in deze studie, met inbegrip van het bewijs van Pool100, een verzameling van nieuwe lncRNAs. Figuur 6d geeft een gedetailleerde lijst van de bevinding uit deze gegevens in het licht van serval externe bronnen. Het aantal cellen dat bewijs levert is ook aangegeven voor elk gen.
Rekening houdend met deze externe bronnen, hebben we elk gen gematcht volgens de kwaliteit van de onafhankelijke ondersteuning die ermee geassocieerd is (Fig. 6c en d). Specifiek verdeelden wij de 75 genenlijst in vier groepen: (i) Genen worden als “bevestigd” bestempeld als ze door beide eerder besproken externe bronnen als ontsnapte genen worden gerapporteerd. Er zijn 31 zulke genen, waarvoor deze studie verdere bevestiging geeft voor hun identiteit als ontsnapte genen. (ii) Nog eens 7 genen krijgen het label “goedgekeurd”. Deze genen worden door slechts één van de twee externe bronnen als escape genen bestempeld. Voor deze genen keurt het onafhankelijke bewijsmateriaal van deze studie hun identiteit goed. (iii) Nog eens 12 genen zijn gemarkeerd als “waarschijnlijke” escapegenen. Deze genen zijn toegewezen op grond van de overeenstemming met een extra extern rapport over 114 ontsnapte genen, dat niet in de op literatuur gebaseerde catalogus was opgenomen, en dat dus als een onafhankelijke bron kan worden beschouwd. (iv) Nog eens 25 genen zijn gemarkeerd als “mogelijke” escapegenen. Deze genen hebben geen literatuurgegevens die hun identiteit ondersteunen, zodat hun aanwijzing als ontsnapte genen minder ondersteund is. Onder hen worden 5 genen alleen ondersteund door de uitbijtercel van lymfoblast en zijn dus waarschijnlijk vals. In deze set zijn er nog eens 10 genen die door geen van de drie besproken externe bronnen werden gerapporteerd, De meerderheid van de over het hoofd geziene lncRNAs behoort tot deze groep. Twee van deze over het hoofd geziene ontsnapte lncRNAs (TCONS_00017125, en TCONS_00017281, Fig. 6b) zijn gelokaliseerd in de PAR regio die uitzonderlijk actief is in biallelische transcriptie. De brongegevens voor Fig. 6d zijn in Additional file 6: Table S5.