En ram för att mäta hur man undviker X-inaktivering i enstaka celler

Vi identifierar de som undviker X-inaktiveringen genom att analysera genuttrycket från somatiska enstaka celler med hjälp av scRNA-Seq-metodik (se Metodik). För att utvärdera metodens känslighet jämför vi X-kromosomens (ChrX) uttryck med andra autosomala kromosomer. Specifikt fokuserade vi på den genrika kromosomen 17 (Chr17) som en prototyp av en autosomal kromosom. Chr17 valdes ut eftersom den representerar en kromosom med ett minimalt antal föräldraspecifika präglade gener . De kvantitativa egenskaperna hos ChrX och Chr17 anges i fig. 1a.

Fig. 1

Arbetsflöde för identifiering av flyktinggener från enskilda celler. a Kvantitativa egenskaper hos ChrX och Chr17 anges i enlighet med GRCh37 (GRC Human Build 37). b Ett schema för analys av primära primära fibroblaster med enskilda celler. De två färgerna för kärnorna representerar det slumpmässiga valet av Xa. I samband med fibroblaster uppvisar varje Xa ett annat uttrycksmönster för hSNPs. Var och en av iSNPs kan tilldelas referensallelen (R) eller den alternativa allelen (A). Om en cell med en Xa kommer att ha ett uttrycksmönster av A R A, kommer en cell med den alternativa Xa att uttrycka R A R. På grund av den slumpmässiga X-inaktiveringen och att hSNP:erna inte är fasade, är annoteringen av en gen som en flykting helt och hållet baserad på att det finns flera bevis för iSNP:er med bialleliskt uttryck. Den illustrativa tabellen visar analysen av iSNPs från var och en av hSNPs (till vänster) i var och en av cellerna som A eller R och annoteringen av en gen enligt ackumuleringen av iSNPs-bevisen. Illustrationen markerar hSNPs från fyra enskilda celler (cell-1 till cell-4). HSNPs är associerade med 3 gener (markerade som gen a till gen c). Gen a är den enda genen med flera bialleliska iSNP:er och är därför annoterad som Escapee-gen (Esc). De andra två generna har antingen inga bialleliska iSNP (gen b) eller har endast en enda iSNP som bevis för bialleliskt uttryck (gen c) och är därför annoterade som Inaktiverad gen (Ina). c Schemat för klonala lymfoblaster med enstaka celler. Till skillnad från primära fibroblaster (b) är Xa:s föräldraursprung identiskt för alla celler. I detta fall av GM12878-cellinjen är Xa associerad med den maternella (M) allelen (symboliserad av rosa färgade kärnor). För lymfoblaster räcker förekomsten av en faderlig allel (markerad som P) för att identifiera en iSNP som uttrycks från Xi och kan därför potentiellt annoteras som en escapee. I tabellen till höger betonas lymfoblasternas tilldelning av flyktingar. Kategorierna i tabellen är desamma som i b). För detaljer om arbetsflödet och de tillämpade protokollen, se Additional file 1: Text and Figure S1

Denna studie är baserad på analys av två kvinnliga ursprungsresurser: (i) Primära UCF1014-fibroblaster (med 104 celler, se metoder). Denna uppsättning specificeras av transkriptomiska data med högre täckning, men saknar information om haplotypsfasning (fig. 1b); (ii) en mindre datauppsättning av klonala lymfoblaster (n = 25) från cellinjen GM12878 med fullständigt fasade och sekvenserade diploida föräldragenom (fig. 1c). I båda datamängderna är transkription vid heterozygota SNPs (hSNPs) informationskällan för att bestämma monoalleliskt eller bialleliskt uttryck. Varje hSNP, i varje cell, som stöds av uttrycksmaterial över ett förutbestämt tröskelvärde betraktas som en informativ SNP (iSNP) (se metoder, Additional file 1: Text). Summan av iSNPs per gen definierar dess unika etikett som inaktiverad eller escapee-gen (se Metoder, Fig. 1b-c, Additional file 1: Text).

Kvantifiering av bialleliskt uttryck från primära fibroblaster med en enda cell

Vi analyserade de publicerade scRNA-Seq-data från kvinnliga primära humana fibroblaster . Före analysen tog vi hand om en experimentell fallgrop som är relevant för många singelcellsstudier. Fallgropen gäller celldubblingar där mer än en cell sekvenseras per bibliotek. I ett sådant scenario kommer olika aktiva X-kromosomer (Xa) från två olika celler som ingår i provet att ge en biallelisk signal längs hela X-kromosomen. Även om fraktionen av dubbleringar förväntas vara liten kan den leda till felaktiga tolkningar . Innan vi analyserade data från fibroblasterna återbesökte vi därför alla 104 fibroblaster och testade deras bialleliska kvot med avseende på ChrX (se Metoder). Tre celler uppvisade en exceptionellt hög grad av bialleliskt uttryck som kan tyda på en blandning av två föräldra X-kromosomer (Additional file 1: Text och figur S3). Vi tog bort alla tre misstänkta celler från alla analyser.

Nästan räknade vi för varje enskild cell antalet läsningar som unikt kartlades till hSNP-alleler. Det alleliska förhållandet (AR) för varje iSNP definieras som andelen läsningar som kartläggs till den alternativa allelen (Alt) av de totala läsningarna (se Metoder, Additional file 2: Table S1). I figur 2a-c sammanfattas AR för ChrX, Chr17 och hela de autosomala kromosomerna enligt samlingen primära fibroblaster (101 av 104 celler). Dessutom visar figur 2d fördelningen av AR för en annoterad uppsättning präglade gener från hudvävnader (enligt ). Som tidigare rapporterats är en bias i kartläggningen mot referensgenomet (AR = 0) uppenbar (fig. 2a-d). Dessutom observerades en betydande andel monoalleliskt uttryck för alla testade uppsättningar (fig. 2a-d). Detta dominerande uppträdande av monoalleliskt uttryck i enskilda celler orsakas av en kombination av både underprovtagning av transkript och ett fenomen som är känt som ”transcriptional bursting” .

Fig. 2

Fördelningen av det alleliska förhållandet (AR) för varje SNP som en bråkdel av tilldelningarna för alternativa (Alt) av Alt och referensalleler (Ref). X-axeln i de övre histogrammen sträcker sig från 0 till 1,0, där 0 anger att alla tilldelningar är associerade med Ref-allelen och 1 anger alla tilldelningar för Alt-allelen. Eftersom majoriteten av iSNPs tilldelas AR-värden på 0 eller 1 visas varje analys med två histogram. Det nedre histogrammet fokuserar på icke-monoalleliska iSNPs och täcker alla AR-värden utom AR = 0 och AR = 1. Procentandelen iSNP som ingår i de nedre histogrammen visas. Fördelningarna av AR visas för Chr17 (a), autosomala kromosomer (b), ChrX (c) och präglade gener (d). För källdata, se Additional file 3: Table S2

Vi fokuserade endast på iSNPs som visar en icke-monoallelisk signatur (dvs. exklusive AR = 0 och AR = 1). Vi observerade en markant skillnad i AR-fördelningen för ChrX och präglade gener i förhållande till Chr17 och alla autosomala kromosomer (jämför fig. 2a till b och fig. 2c till d). Följaktligen kan flera observationer från de resultat som visas i fig. 2 dras: (i) Chr17 och alla autosomer har en liknande AR-profil. (ii) En tydlig tendens till balanserat uttryck (AR = 0,5) är uppenbar för alla autosomala kromosomer (fig. 2a-b), men inte ChrX eller präglade gener (fig. 2c-d). (iii) Andelen icke-monoalleliskt uttryck i autosomala kromosomer är högre (~ 18 %) i förhållande till ChrX (~ 9 %). (iv) Andelen icke-monoalleliskt uttryck i präglade gener uppvisar en mellannivå (13 %). En sådan mellannivå är troligen en återspegling av den inneboende inkonsekvensen i identiteten hos präglade gener . Additional file 3: Table S2 listar de stödjande iSNPs för alla analyserade kromosomer i fibroblaster, inklusive uppsättningen av präglade gener.

Identifiering av escapees i primära fibroblaster med en enda cell

I datasetet för primära fibroblaster finns det 232 och 485 gener som stöds av iSNPs-bevis för ChrX respektive Chr17. Eftersom dessa celler saknar information om genomfasning (fig. 1b), är informationen om att man undkommer X-kromosomen begränsad till uppsättningen bialleliska iSNPs (se fig. 1b). Vi aggregerade iSNPs enligt deras motsvarande gener (fig. 1b). Aggregationen utförs över olika enskilda celler och över flera iSNP:er inom ett specifikt cell-genpar. En gen kommer att betecknas som escapee-kandidat när den är associerad med flera bialleliska iSNPs. Sammanlagt identifierade vi 24 sådana gener (tabell 1) som står för 10,3 % av alla uttryckta gener i ChrX. Som väntat är andelen gener på Chr17 som uppvisar bialleliskt uttryck betydligt högre (49,3 %, Additional file 4: Table S3).

Tabell 1 Escapees från 101 primära encelliga fibroblaster. En fullständig lista över alla gener finns i Additional file 3: Table S4

Tabell 1 listar escapee-kandidaterna med olika grader av stöd. Till exempel har generna ZFX (Zinc finger X-chromosomal protein) och SMC1A (Structural maintenance of chromosomes protein 1A) starkt stöd med 103 respektive 19 bialleliska iSNPs. En ytterligare ökning av tillförlitligheten när det gäller att identifiera escapees bygger på att man har minst två oberoende celler som bidragit med information om bialleliskt uttryck. Vi visar att 21 av 24 gener uppfyllde detta strikta kriterium (tabell 1). Noterbart är att vi bland de identifierade escapees endast upptäckte tre PAR-gener (SLC25A6, CD99 och DHRSX, tabell 1). Att dessa gener klassificeras som escapees stämmer överens med det förväntade PAR-uttrycket. Utifrån antalet bialleliska PAR-gener av de uttryckta PAR-generna uppskattade vi att den falskt negativa upptäcktsfrekvensen för escapees är så hög som 70 % (dvs. missade 7 av 10 uttryckta PAR-gener). Additional file 4: Table S3 visar stödet för tabell 1.

Kvantifiering av alleliskt uttryck från klonalt fasade lymfoblaster

En stor begränsning i det protokoll som beskrivs ovan gäller avsaknaden av föräldrarnas haplotypsfasning. Med denna inställning kan iSNPs inte tilldelas Xa eller Xi. Följaktligen begränsar det slumpmässiga valet av Xi som kännetecknar primära celler upptäcktsfrekvensen för escapees. Vi utökade analysen av scRNA-Seq till lymfoblaster med kvinnligt ursprung från den klonala cellinjen GM12878 . Se figur 1c och tilläggsfil 1: Figur S4.

Figur 3a visar uttrycksprofilen för klonala lymfoblaster i enskilda celler (n = 25) (Additional file 2: Table S1, Additional file 5: Table S4). I varje enskild cell återspeglar det monoalleliska uttrycket kombinationen av en undermätning av transkriptioner och fenomenet transkriptionell sprängning . Det är tydligt att det moderliga uttrycket från Xa dominerar (fig. 3a, överst). En observation som stämmer överens med det rapporterade moderliga Xa-ursprunget i cellinjen GM12878 . I de flesta av de analyserade cellerna kommer en liten men betydande del av det uppmätta totala uttrycket från den faderliga, Xi-kromosomen (fig. 3a, överst). Chr17 och de autosomala kromosomerna uppvisar däremot ett lika stort uttryck från båda allelerna (fig. 3a, mitten och botten).

Fig. 3

Kvantifiering av iSNPs-märkningar från 25 enskilda celllymfoblaster. a Varje enskild cell är uppdelad enligt dess märkta alleliska iSNPs på ChrX, Chr17 och alla autosomala kromosomer. iSNPs är associerade med moderligt (rosa), faderligt (ljusblått) och balanserat uttryck (grått). Cellerna är ordnade från vänster till höger enligt deras iSNP-bidrag (Additional file 1: Figur S4). Till höger visas den sammanfattande statistiken för Pool100. b En sammanfattning av fördelningen av iSNP-taggar för alla 25 enskilda celler på ChrX, Chr17 och autosomala kromosomer. c En sammanfattning av fördelningen av iSNP-taggar för Pool100. Blå och rosa färger är förknippade med den faderliga respektive moderliga allelen. Det randiga mönstret indikerar bialleliska iSNP:er som lutar mot paternella (blå) eller maternella (rosa) alleler. För enskilda celler baseras uppgifterna på 375 iSNPs för ChrX, 808 iSNPs för Chr17 och 20 212 iSNPs för autosomala kromosomer. Uppgifterna för Pool100 baseras på 211 iSNPs för ChrX, 216 för Chr17 och 5360 iSNPs för autosomala kromosomer. För källdata se Additional file 5: Table S4

Från figuren är det uppenbart att fenomenet med transkriptionell explosion påverkar alla kromosomer inklusive ChrX. För att bedöma hur detta fenomen påverkar identifieringen av gener som flyktingar jämförde vi enskilda celler med en pool av celler (Pool100, fig. 3a, höger stapel). Medan majoriteten av iSNPs från Chr17 uppvisar bialleliska profiler, domineras ChrX fortfarande av ett moderligt monoalleliskt uttryck.

Figur 3b är en aggregerad bild av ChrX, Chr17 och de autosomala kromosomerna. Uppgifterna är baserade på 375, 808 respektive 20 212 uttryckta hSNPs. Figur 3b (mitten och höger panel) visar en jämn fördelning av föräldraallelerna från Chr17 och autosomala kromosomer (figur 3b, överst). Om man utför samma analys på data som samlats in från Pool100 (fig. 3c) visar det sig att fördelningen av föräldraallelerna förblir praktiskt taget oförändrad (jämför fraktionen som upptas av rosa och blå färger, fig. 3b-c). Dessutom observerade vi ett skifte från ett monoalleliskt (fig. 3b-c, fylld färg) till ett bialleliskt uttryck (fig. 3b-c, avskalad färg). Fraktionen av det bialleliska uttrycket för Ch17 ökade från 19 % i enskilda celler till 80 % i Pool100, och för autosomala kromosomer från 18 till 79 % (fig. 3c, mellersta och högra panelen). Resultaten från Pool100 visar att det monoalleliska uttrycket som observerats i enskilda celler praktiskt taget upphävs genom att medelvärdesberäkna signalen.

Resultaten från ChrX (Fig. 3b (vänster) är fundamentalt annorlunda i förhållande till Chr17 eller de autosomala kromosomerna (Fig. 3b-c). Den mest anmärkningsvärda skillnaden är att endast 21 % av de uttryckta iSNPs är associerade med faderns Xi-allel i ChrX (fig. 3b, överst). Vid analys av Pool100 förblir dessutom fraktionen av bialleliskt uttryck begränsad (en förskjutning från 9 % i enskilda celler till 34 % i Pool100). Det observerade mönstret för ChrX från Pool100 (Fig. 3c, vänster) förklaras bäst av en medelvärdesbildning av den stokastiska monoalleliska signalen (i samma grad som de andra kromosomerna) samtidigt som en stark signal för det monoalleliska Xa-uttrycket bialleliskt bevaras. Se Additional file 5: Table S4 för lymfoblasternas alleliska förhållande för alla testade kromosomer och Pool100.

Identifiera flyktingar från encelliga lymfoblaster

Figur 4a är en gencentrerad vy som visar den alleliska fördelningen av iSNP:erna från lymfoblasterna (färgade enligt deras ursprung som moderligt, faderligt eller blandat uttryck, se metoderna). Endast den delmängd gener som stöds av flera iSNP:er listas enligt deras ordning längs kromosomerna. Sammanlagt rapporterar vi om 93 annoterade gener på ChrX (Fig. 4a, 30 escapees och 63 inaktiverade gener). Observera att de X-inaktiverade generna står för gener som främst uttrycks från moderns Xa. Ett kluster av gener med ett faderligt uttryck vid spetsen av ChrX p-arm representerar det förväntade bialleliska uttrycket från PAR-generna (Fig. 4a). Ytterligare bevis för paternellt uttryck lokaliseras till XIC med gener som XIST, JPX och FTX. Medan de flesta av flyktingarna stöds av ett begränsat antal iSNPs, stöds några av dem, såsom ZFX, CD99 och SLC25A6, av ett relativt stort antal stödjande iSNPs (48, 38 respektive 34).

Figur 4

En gencentrerad partition av alleler från lymfoblastceller. a För varje gen på ChrX visas iSNPs föräldrapartitionen tillsammans med antalet iSNPs. För tydlighetens skull anges endast gener som stöds av > = 2 iSNPS. Sammanlagt 93 gener i ChrX förtecknas enligt deras ordning på kromosomen. Färgkoden är enligt iSNP-etiketterna som paternellt, maternellt och balanserat uttryck. För källdata, se Additional file 5: Table S4. b-c Korrelation mellan uttrycksnivåerna från de faderliga och moderliga allelerna. Spridningsdiagrammen visar genernas uttrycksnivåer genom antalet läsningar som är associerade med maternella (x-axel) och paternella (y-axel) alleler. Antalet analyserade gener för varje spridningsdiagram anges (på x-axeln, inom parentes). De data som visas är från Chr17 (b) och ChrX (c) baserade på enskilda celler och Pool100. Observera att antalet läsningar för Pool100-data är 10 gånger mindre med avseende på de kumulativa data som extraherats från enskilda celler. För källdata, se Additional file 4: Table S3

En alternativ metod för att bedöma omfattningen av fenomenet X-inaktivering är att kvantifiera bevisen direkt från summan av alla sekvenserade läsningar (förkortat som det läsbaserade protokollet). I figurerna 4b-c jämförs antalet läsningar från Chr17 (fig. 4b) och ChrX (fig. 4c) efter faderns respektive moderns ursprung. Vi jämför uttrycksdata från de enskilda cellerna och Pool100. Den linjära regressionen för genuttrycket från Chr17 visar en hög korrelationsanpassningslinje (r2 = 0,823, fig. 4b). Som väntat är korrelationen starkare i de data som härstammar från Pool100 (r2 = 0,946, fig. 4b). Vi drog slutsatsen att trots det monoalleliska uttrycket på grund av fenomenet transkriptionell sprängning, finns det ett starkt stöd för ett balanserat alleliskt uttryck för alla gener. För ChrX är dock den resulterande linjära regressionen av de enskilda cellerna dålig (r2 = 0,238, fig. 4c) och förbättrades inte av data från Pool100 (r2 = 0,222, fig. 4d). En inspektion av expressionsdata för ChrX visar att regressionslinjerna faktiskt lutar mot det moderliga Xa-uttrycket (x-axeln). Uttrycksdata överensstämmer med två olika regressionslinjer för ChrX. En som matchar de inaktiverade generna (parallellt med x-axeln) och den andra matchar ett förtroendefullt bialleliskt uttryck.

Användning av det konservativa iSNP-baserade protokollet leder till identifiering av 30 gener som flyktingkandidater som också stöds av det läsbaserade protokollet (tabell 2). Det läsbaserade (dvs, märkning av en gen som escapee genom att den har ett minimalt antal fadersläsningar, se Metodik) protokollet utökade listan över escapee-kandidater till att omfatta totalt 49 gener (Additional file 4: Table S3).

Tabell 2 Escapees från 25 klonala encelliga lymfoblaster

Testning av det föräldraskapliga ursprunget för alleler längs en gen i samma cell är ett strängt test av tillförlitligheten hos iSNP:erna. Detta test är endast giltigt för gener med flera hSNPs. Sådana gener som stöds med två eller flera uttryckande hSNPs utgör 44 % av generna. Vi anser att en gen är konsekvent om uttrycket längs genen i en specifik cell inte är monoalleliskt för båda allelerna. Sammanlagt identifierade vi 3 inkonsekventa gener – TEX11, FTX och ZCCHC16. För ytterligare 6 gener är inkonsekvensen endast partiell eftersom det finns andra observationer av bialleliskt uttryck. Uppskattningen från fullständig inkonsekvens (3 av de 29 gener som var berättigade till detta test) tyder på att den övre gränsen för en felaktig tolkning är 10 %. Dessutom identifierade det iSNP-baserade protokollet 9 av de 11 uttryckta PAR-generna. Vi extrapolerar således att upptäcktsgraden för rymdvarelser är 82 %. Intressant nog visade analysen av Chr17, under antagandet att det inte finns någon systematisk allelisk bias , att 7,3 och 9,6 % av generna var förknippade med moderligt respektive faderligt monoalleliskt uttryck. Dessa resultat ger en övre gräns på 17,9 % för sannolikheten för falsk genmärkning i Chr17 och kan användas för att uppskatta metodens begränsning.

Krävs fadersbevis från minst två celler minskar antalet undkomna från 49 till 18 (inklusive 5 PAR-gener). Många enstaka bevisgener som är resultatet av en specifik outlier-cell (SRR764803) som bidrog till 17 av de 49 rapporterade generna (tabell 2, Additional file 5: tabell S4). Denna cell uppvisar de högsta uttrycksnivåerna på både ChrX och Chr17 (Additional file 1: Text och figur S4). I tabell 2 listas de upptäckta flyktingkandidaterna tillsammans med deras stödjande bevis (tabell 2).

Varje jämförelse av de identifierade flyktingkandidaterna med nuvarande kunskap

Vi testade överensstämmelsen mellan de identifierade flyktingkandidaterna från vår studie och en litteraturbaserad katalog . Denna enhetliga katalog sammanställdes genom integrering av fyra oberoende studier som omfattar 1144 gener från ChrX. Generna i denna katalog är manuellt uppdelade i nio definierade kategorier (se metoder). Den största kategorin omfattar gener som saknar information (45 %) . Ungefär 15 % av generna (168/1144) anses vara ”flyktingassocierade” (se metoder). Vi betraktar den sammanställda uppsättningen av ”escapee-associerade” gener som en guldstandard för att testa escapees upptäcktsfrekvens i vår studie (totalt 124 gener, exkluderade PAR-gener, gemensamt kallade Balaton-Esc).

Vi tillämpade ett hypergeometriskt statistiskt test (se Metodik) för att bedöma överlappningen mellan de olika escapee-genlistorna (fig. 5). Figur 5a visar antalet identifierade escapees från fibroblaster och lymfoblaster (exklusive PAR-gener). Observera att endast gener som ingår i Balaton-Esc benchmark ingår i denna analys (fig. 5). Figur 5b visar den statistiska betydelsen av överlappningen mellan genlistorna från figur 5a och Balaton-Esc . Som framgår finns det en betydande överlappning mellan escapees från lymfoblaster (tabell 2 och Additional file 4: tabell S3) och Balaton-Esc-listan (fig. 5b, p-värde = 7,43E-8). Att tillämpa samma test för primära fibroblaster (tabell 1) resulterade i en lägre signifikans (p-värde = 4,07E-2).

Fig. 5

Identifierade escapees och statistisk signifikans av överlappningen med den litteraturbaserade katalogen som sammanställts av Balaton m.fl. a Antalet escapees som identifierats i varje analys. Antalet inkluderar endast gener som fanns i Balaton et al. och utesluter PAR-gener. b Statistisk analys baserad på den hypergeometriska fördelningen som mäter överlappningen mellan den litteraturbaserade listan som presenteras av Balaton et al. och den escapee som tilldelats i denna studie (som i (a)). Y-axeln är -log10(x) för det beräknade p-värdet. c Venn-diagram av de fyra uppsättningarna av escapees enligt de analyserade fibroblasterna och lymfoblasterna, Balaton-Esc-samlingen och Tukiainen-Esc . Inklusive PAR. För detaljer se texten. Källdata i Additional file 6: Table S5

Figur 5c visar överlappningsgener mellan de escapees som identifierats i vår studie och Balaton-Esc-katalogen (168 gener inklusive PAR-gener) . Vi inkluderade också en kompletterande resurs baserad på 940 transkriptom från scRNA-Seq (25 flyktinggener, Tukiainen-Esc) . Venn-diagrammet visar att var och en av ovanstående studier bidrar till den nuvarande kunskapen om flyktingar. Flyktingar från de två externa resurserna överlappar varandra med 18 av 25 rapporterade gener (72 %). Som framgår av figur 5c överlappar 62 % av de escapees som rapporterats från lymfoblasterna med de externa escapee-listorna, medan fibroblasterna stöds av endast 38 % överlappning. Det är anmärkningsvärt att de flesta av våra upptäckta flyktingkandidatgener från fibroblaster (62 %) inte har någon överensstämmelse med de andra testade listorna (Additional file 6: Table S5).

LncRNAs utökar listan över flyktingkandidater

Vi utökade vår analys till långa icke-kodande RNAs (lncRNAs) med hjälp av samma flyktingkriterier som användes från kodande gener (fig. 6). Sammanlagt identifierade vi 15 lncRNAs som escapee-kandidater, bland dem har endast ett fåtal tidigare studerats. Placeringen av lncRNAs och kodande escapees längs ChrX visas (fig. 6a). Vi testade flyktingarnas positioner längs ChrX i förhållande till alla ChrX-gener. Medan positionsfördelningen för lncRNA-flyktingar är likartad (Kolmogorov-Smirnov-test, p-värde = 0,57) är den annorlunda för kodningsflyktingar (Kolmogorov-Smirnov-test, p-värde = 0,004, fig. 6a).

Fig. 6

LncRNAs som tilldelats som escapees och grupperna av escapees enligt deras konfidensnivå. a Spridningen av escapees längs ChrX. Escapees som tillhör lncRNAs och kodande gener anges ovanför respektive under schemat för ChrX. b En tabell med en förteckning över de 15 lncRNA escapee-kandidaterna. Den orangea färgen anger escapee och den grå inaktiverade. En tilldelning som baseras på en enda iSNP är markerad med ljusorange. Det vita indikerar avsaknad av rapport eller inget uttryck. XIC, X inactivation center region. c Fördelning av de 75 gener som nämndes som escapee-kandidater i den här studien. Kategorierna är märkta med ”bekräftad”, ”godkänd”, ”sannolik” och ”möjlig” (se text). De två externa resurser som används för att definiera grupperna är från litteraturen och från enstaka celler av . För en grupp av ”sannolika” flyktingar använde vi flyktingens annotation från som bevis. Observera att 11 av de 15 listade lncRNA-generna ingår i gruppen ”möjliga” escapee. d En sammanfattning av de bevisbaserade grupperna för 75 gener. Generna är sorterade enligt de fyra bevisgrupperna (som i c). Ljusorange anger escapees som stöds av ett enda bevis från endast en cell i fibroblaster. Inaktiverade gener är färgade i grått. Vit färg indikerar inget uttryck eller avsaknad av rapport. Cellbevisen är färgkodade och visar stöd från en (ljusblå) eller flera celler (mörkblå). Fall där bevisen endast baseras på Pool100 är också markerade med ljusblått. PAR-gener och lncRNAs är markerade. Källdata finns i Additional file 6: Table S5

Figur 6b listar alla 15 identifierade lncRNA escapee-gener, bland dem finns ncRNA-gener från XIC som samordnar aktivering och underhåll av X-inaktivering. Många av lncRNA:erna är lokaliserade vid transkriptionellt aktiva segment (t.ex. inom PAR eller XIC), medan andra är lokaliserade i icke-konserverade regioner som är berikade med långa och korta ncRNA:er. För ytterligare ncRNAs, inklusive inaktiverade gener, se Additional file 7: Table S6.

Evidensbaserad partition av escapee-gener

Figur 6c sammanfattar partitionen enligt evidens för alla gener som med någon nivå av konfidens rapporteras som escapee-gener (Additional file 6: Table S5). Denna lista innehåller 75 kandidater som rapporteras i den här studien, inklusive bevis från Pool100, en samling av nya lncRNAs. Figur 6d ger en detaljerad lista över resultatet från dessa data med tanke på serval externa resurser. Antalet celler som ger bevis anges också för varje gen.

Med hänsyn till dessa externa resurser matchade vi varje gen enligt kvaliteten på det oberoende stöd som är kopplat till den (figur 6c och d). Specifikt delade vi upp den 75 genlistan i fyra grupper: (i) Generna betecknas som ”bekräftade” om de rapporteras som flyktingar av båda de tidigare diskuterade externa resurserna . Det finns 31 sådana gener, för vilka den här studien ger ytterligare bekräftelse på deras identitet som flyktingar. (ii) Ytterligare 7 gener märks som ”godkända”. Dessa gener har endast en av de två externa resurserna rapporterat att de är flyktingar. För dessa gener godkänner de oberoende bevisen från denna undersökning deras identitet. (iii) Ytterligare 12 gener är märkta som ”sannolika” flyktingar. Dessa gener tilldelas enligt överenskommelsen med en ytterligare extern rapport som rapporterar om 114 escapees , som inte ingick i den litteraturbaserade katalogen , och som därför kan betraktas som en oberoende resurs. (iv) Ytterligare 25 gener är markerade som ”möjliga” flyktingar. Dessa gener saknar litteraturbevis som styrker deras identitet, och deras klassificering som ”escapees” är därför mindre väl underbyggd. Bland dem stöds 5 gener endast från den utbrytande cellen från lymfoblasten och är därför troligen falska. I denna uppsättning finns ytterligare 10 gener som inte rapporterades av någon av de tre diskuterade externa resurserna , Majoriteten av de förbisedda lncRNA:erna tillhör denna grupp. Två av dessa förbisedda escapee lncRNAs (TCONS_00017125 och TCONS_00017281, fig. 6b) är belägna vid PAR-regionen som är exceptionellt aktiv vid biallelisk transkription. Källdata för fig. 6d finns i Additional file 6: Table S5.

admin

Lämna ett svar

Din e-postadress kommer inte publiceras.

lg