- En ram för att mäta hur man undviker X-inaktivering i enstaka celler
- Kvantifiering av bialleliskt uttryck från primära fibroblaster med en enda cell
- Identifiering av escapees i primära fibroblaster med en enda cell
- Kvantifiering av alleliskt uttryck från klonalt fasade lymfoblaster
- Identifiera flyktingar från encelliga lymfoblaster
- Varje jämförelse av de identifierade flyktingkandidaterna med nuvarande kunskap
- LncRNAs utökar listan över flyktingkandidater
- Evidensbaserad partition av escapee-gener
En ram för att mäta hur man undviker X-inaktivering i enstaka celler
Vi identifierar de som undviker X-inaktiveringen genom att analysera genuttrycket från somatiska enstaka celler med hjälp av scRNA-Seq-metodik (se Metodik). För att utvärdera metodens känslighet jämför vi X-kromosomens (ChrX) uttryck med andra autosomala kromosomer. Specifikt fokuserade vi på den genrika kromosomen 17 (Chr17) som en prototyp av en autosomal kromosom. Chr17 valdes ut eftersom den representerar en kromosom med ett minimalt antal föräldraspecifika präglade gener . De kvantitativa egenskaperna hos ChrX och Chr17 anges i fig. 1a.
Denna studie är baserad på analys av två kvinnliga ursprungsresurser: (i) Primära UCF1014-fibroblaster (med 104 celler, se metoder). Denna uppsättning specificeras av transkriptomiska data med högre täckning, men saknar information om haplotypsfasning (fig. 1b); (ii) en mindre datauppsättning av klonala lymfoblaster (n = 25) från cellinjen GM12878 med fullständigt fasade och sekvenserade diploida föräldragenom (fig. 1c). I båda datamängderna är transkription vid heterozygota SNPs (hSNPs) informationskällan för att bestämma monoalleliskt eller bialleliskt uttryck. Varje hSNP, i varje cell, som stöds av uttrycksmaterial över ett förutbestämt tröskelvärde betraktas som en informativ SNP (iSNP) (se metoder, Additional file 1: Text). Summan av iSNPs per gen definierar dess unika etikett som inaktiverad eller escapee-gen (se Metoder, Fig. 1b-c, Additional file 1: Text).
Kvantifiering av bialleliskt uttryck från primära fibroblaster med en enda cell
Vi analyserade de publicerade scRNA-Seq-data från kvinnliga primära humana fibroblaster . Före analysen tog vi hand om en experimentell fallgrop som är relevant för många singelcellsstudier. Fallgropen gäller celldubblingar där mer än en cell sekvenseras per bibliotek. I ett sådant scenario kommer olika aktiva X-kromosomer (Xa) från två olika celler som ingår i provet att ge en biallelisk signal längs hela X-kromosomen. Även om fraktionen av dubbleringar förväntas vara liten kan den leda till felaktiga tolkningar . Innan vi analyserade data från fibroblasterna återbesökte vi därför alla 104 fibroblaster och testade deras bialleliska kvot med avseende på ChrX (se Metoder). Tre celler uppvisade en exceptionellt hög grad av bialleliskt uttryck som kan tyda på en blandning av två föräldra X-kromosomer (Additional file 1: Text och figur S3). Vi tog bort alla tre misstänkta celler från alla analyser.
Nästan räknade vi för varje enskild cell antalet läsningar som unikt kartlades till hSNP-alleler. Det alleliska förhållandet (AR) för varje iSNP definieras som andelen läsningar som kartläggs till den alternativa allelen (Alt) av de totala läsningarna (se Metoder, Additional file 2: Table S1). I figur 2a-c sammanfattas AR för ChrX, Chr17 och hela de autosomala kromosomerna enligt samlingen primära fibroblaster (101 av 104 celler). Dessutom visar figur 2d fördelningen av AR för en annoterad uppsättning präglade gener från hudvävnader (enligt ). Som tidigare rapporterats är en bias i kartläggningen mot referensgenomet (AR = 0) uppenbar (fig. 2a-d). Dessutom observerades en betydande andel monoalleliskt uttryck för alla testade uppsättningar (fig. 2a-d). Detta dominerande uppträdande av monoalleliskt uttryck i enskilda celler orsakas av en kombination av både underprovtagning av transkript och ett fenomen som är känt som ”transcriptional bursting” .
Vi fokuserade endast på iSNPs som visar en icke-monoallelisk signatur (dvs. exklusive AR = 0 och AR = 1). Vi observerade en markant skillnad i AR-fördelningen för ChrX och präglade gener i förhållande till Chr17 och alla autosomala kromosomer (jämför fig. 2a till b och fig. 2c till d). Följaktligen kan flera observationer från de resultat som visas i fig. 2 dras: (i) Chr17 och alla autosomer har en liknande AR-profil. (ii) En tydlig tendens till balanserat uttryck (AR = 0,5) är uppenbar för alla autosomala kromosomer (fig. 2a-b), men inte ChrX eller präglade gener (fig. 2c-d). (iii) Andelen icke-monoalleliskt uttryck i autosomala kromosomer är högre (~ 18 %) i förhållande till ChrX (~ 9 %). (iv) Andelen icke-monoalleliskt uttryck i präglade gener uppvisar en mellannivå (13 %). En sådan mellannivå är troligen en återspegling av den inneboende inkonsekvensen i identiteten hos präglade gener . Additional file 3: Table S2 listar de stödjande iSNPs för alla analyserade kromosomer i fibroblaster, inklusive uppsättningen av präglade gener.
Identifiering av escapees i primära fibroblaster med en enda cell
I datasetet för primära fibroblaster finns det 232 och 485 gener som stöds av iSNPs-bevis för ChrX respektive Chr17. Eftersom dessa celler saknar information om genomfasning (fig. 1b), är informationen om att man undkommer X-kromosomen begränsad till uppsättningen bialleliska iSNPs (se fig. 1b). Vi aggregerade iSNPs enligt deras motsvarande gener (fig. 1b). Aggregationen utförs över olika enskilda celler och över flera iSNP:er inom ett specifikt cell-genpar. En gen kommer att betecknas som escapee-kandidat när den är associerad med flera bialleliska iSNPs. Sammanlagt identifierade vi 24 sådana gener (tabell 1) som står för 10,3 % av alla uttryckta gener i ChrX. Som väntat är andelen gener på Chr17 som uppvisar bialleliskt uttryck betydligt högre (49,3 %, Additional file 4: Table S3).
Tabell 1 listar escapee-kandidaterna med olika grader av stöd. Till exempel har generna ZFX (Zinc finger X-chromosomal protein) och SMC1A (Structural maintenance of chromosomes protein 1A) starkt stöd med 103 respektive 19 bialleliska iSNPs. En ytterligare ökning av tillförlitligheten när det gäller att identifiera escapees bygger på att man har minst två oberoende celler som bidragit med information om bialleliskt uttryck. Vi visar att 21 av 24 gener uppfyllde detta strikta kriterium (tabell 1). Noterbart är att vi bland de identifierade escapees endast upptäckte tre PAR-gener (SLC25A6, CD99 och DHRSX, tabell 1). Att dessa gener klassificeras som escapees stämmer överens med det förväntade PAR-uttrycket. Utifrån antalet bialleliska PAR-gener av de uttryckta PAR-generna uppskattade vi att den falskt negativa upptäcktsfrekvensen för escapees är så hög som 70 % (dvs. missade 7 av 10 uttryckta PAR-gener). Additional file 4: Table S3 visar stödet för tabell 1.
Kvantifiering av alleliskt uttryck från klonalt fasade lymfoblaster
En stor begränsning i det protokoll som beskrivs ovan gäller avsaknaden av föräldrarnas haplotypsfasning. Med denna inställning kan iSNPs inte tilldelas Xa eller Xi. Följaktligen begränsar det slumpmässiga valet av Xi som kännetecknar primära celler upptäcktsfrekvensen för escapees. Vi utökade analysen av scRNA-Seq till lymfoblaster med kvinnligt ursprung från den klonala cellinjen GM12878 . Se figur 1c och tilläggsfil 1: Figur S4.
Figur 3a visar uttrycksprofilen för klonala lymfoblaster i enskilda celler (n = 25) (Additional file 2: Table S1, Additional file 5: Table S4). I varje enskild cell återspeglar det monoalleliska uttrycket kombinationen av en undermätning av transkriptioner och fenomenet transkriptionell sprängning . Det är tydligt att det moderliga uttrycket från Xa dominerar (fig. 3a, överst). En observation som stämmer överens med det rapporterade moderliga Xa-ursprunget i cellinjen GM12878 . I de flesta av de analyserade cellerna kommer en liten men betydande del av det uppmätta totala uttrycket från den faderliga, Xi-kromosomen (fig. 3a, överst). Chr17 och de autosomala kromosomerna uppvisar däremot ett lika stort uttryck från båda allelerna (fig. 3a, mitten och botten).
Från figuren är det uppenbart att fenomenet med transkriptionell explosion påverkar alla kromosomer inklusive ChrX. För att bedöma hur detta fenomen påverkar identifieringen av gener som flyktingar jämförde vi enskilda celler med en pool av celler (Pool100, fig. 3a, höger stapel). Medan majoriteten av iSNPs från Chr17 uppvisar bialleliska profiler, domineras ChrX fortfarande av ett moderligt monoalleliskt uttryck.
Figur 3b är en aggregerad bild av ChrX, Chr17 och de autosomala kromosomerna. Uppgifterna är baserade på 375, 808 respektive 20 212 uttryckta hSNPs. Figur 3b (mitten och höger panel) visar en jämn fördelning av föräldraallelerna från Chr17 och autosomala kromosomer (figur 3b, överst). Om man utför samma analys på data som samlats in från Pool100 (fig. 3c) visar det sig att fördelningen av föräldraallelerna förblir praktiskt taget oförändrad (jämför fraktionen som upptas av rosa och blå färger, fig. 3b-c). Dessutom observerade vi ett skifte från ett monoalleliskt (fig. 3b-c, fylld färg) till ett bialleliskt uttryck (fig. 3b-c, avskalad färg). Fraktionen av det bialleliska uttrycket för Ch17 ökade från 19 % i enskilda celler till 80 % i Pool100, och för autosomala kromosomer från 18 till 79 % (fig. 3c, mellersta och högra panelen). Resultaten från Pool100 visar att det monoalleliska uttrycket som observerats i enskilda celler praktiskt taget upphävs genom att medelvärdesberäkna signalen.
Resultaten från ChrX (Fig. 3b (vänster) är fundamentalt annorlunda i förhållande till Chr17 eller de autosomala kromosomerna (Fig. 3b-c). Den mest anmärkningsvärda skillnaden är att endast 21 % av de uttryckta iSNPs är associerade med faderns Xi-allel i ChrX (fig. 3b, överst). Vid analys av Pool100 förblir dessutom fraktionen av bialleliskt uttryck begränsad (en förskjutning från 9 % i enskilda celler till 34 % i Pool100). Det observerade mönstret för ChrX från Pool100 (Fig. 3c, vänster) förklaras bäst av en medelvärdesbildning av den stokastiska monoalleliska signalen (i samma grad som de andra kromosomerna) samtidigt som en stark signal för det monoalleliska Xa-uttrycket bialleliskt bevaras. Se Additional file 5: Table S4 för lymfoblasternas alleliska förhållande för alla testade kromosomer och Pool100.
Identifiera flyktingar från encelliga lymfoblaster
Figur 4a är en gencentrerad vy som visar den alleliska fördelningen av iSNP:erna från lymfoblasterna (färgade enligt deras ursprung som moderligt, faderligt eller blandat uttryck, se metoderna). Endast den delmängd gener som stöds av flera iSNP:er listas enligt deras ordning längs kromosomerna. Sammanlagt rapporterar vi om 93 annoterade gener på ChrX (Fig. 4a, 30 escapees och 63 inaktiverade gener). Observera att de X-inaktiverade generna står för gener som främst uttrycks från moderns Xa. Ett kluster av gener med ett faderligt uttryck vid spetsen av ChrX p-arm representerar det förväntade bialleliska uttrycket från PAR-generna (Fig. 4a). Ytterligare bevis för paternellt uttryck lokaliseras till XIC med gener som XIST, JPX och FTX. Medan de flesta av flyktingarna stöds av ett begränsat antal iSNPs, stöds några av dem, såsom ZFX, CD99 och SLC25A6, av ett relativt stort antal stödjande iSNPs (48, 38 respektive 34).
En alternativ metod för att bedöma omfattningen av fenomenet X-inaktivering är att kvantifiera bevisen direkt från summan av alla sekvenserade läsningar (förkortat som det läsbaserade protokollet). I figurerna 4b-c jämförs antalet läsningar från Chr17 (fig. 4b) och ChrX (fig. 4c) efter faderns respektive moderns ursprung. Vi jämför uttrycksdata från de enskilda cellerna och Pool100. Den linjära regressionen för genuttrycket från Chr17 visar en hög korrelationsanpassningslinje (r2 = 0,823, fig. 4b). Som väntat är korrelationen starkare i de data som härstammar från Pool100 (r2 = 0,946, fig. 4b). Vi drog slutsatsen att trots det monoalleliska uttrycket på grund av fenomenet transkriptionell sprängning, finns det ett starkt stöd för ett balanserat alleliskt uttryck för alla gener. För ChrX är dock den resulterande linjära regressionen av de enskilda cellerna dålig (r2 = 0,238, fig. 4c) och förbättrades inte av data från Pool100 (r2 = 0,222, fig. 4d). En inspektion av expressionsdata för ChrX visar att regressionslinjerna faktiskt lutar mot det moderliga Xa-uttrycket (x-axeln). Uttrycksdata överensstämmer med två olika regressionslinjer för ChrX. En som matchar de inaktiverade generna (parallellt med x-axeln) och den andra matchar ett förtroendefullt bialleliskt uttryck.
Användning av det konservativa iSNP-baserade protokollet leder till identifiering av 30 gener som flyktingkandidater som också stöds av det läsbaserade protokollet (tabell 2). Det läsbaserade (dvs, märkning av en gen som escapee genom att den har ett minimalt antal fadersläsningar, se Metodik) protokollet utökade listan över escapee-kandidater till att omfatta totalt 49 gener (Additional file 4: Table S3).
Testning av det föräldraskapliga ursprunget för alleler längs en gen i samma cell är ett strängt test av tillförlitligheten hos iSNP:erna. Detta test är endast giltigt för gener med flera hSNPs. Sådana gener som stöds med två eller flera uttryckande hSNPs utgör 44 % av generna. Vi anser att en gen är konsekvent om uttrycket längs genen i en specifik cell inte är monoalleliskt för båda allelerna. Sammanlagt identifierade vi 3 inkonsekventa gener – TEX11, FTX och ZCCHC16. För ytterligare 6 gener är inkonsekvensen endast partiell eftersom det finns andra observationer av bialleliskt uttryck. Uppskattningen från fullständig inkonsekvens (3 av de 29 gener som var berättigade till detta test) tyder på att den övre gränsen för en felaktig tolkning är 10 %. Dessutom identifierade det iSNP-baserade protokollet 9 av de 11 uttryckta PAR-generna. Vi extrapolerar således att upptäcktsgraden för rymdvarelser är 82 %. Intressant nog visade analysen av Chr17, under antagandet att det inte finns någon systematisk allelisk bias , att 7,3 och 9,6 % av generna var förknippade med moderligt respektive faderligt monoalleliskt uttryck. Dessa resultat ger en övre gräns på 17,9 % för sannolikheten för falsk genmärkning i Chr17 och kan användas för att uppskatta metodens begränsning.
Krävs fadersbevis från minst två celler minskar antalet undkomna från 49 till 18 (inklusive 5 PAR-gener). Många enstaka bevisgener som är resultatet av en specifik outlier-cell (SRR764803) som bidrog till 17 av de 49 rapporterade generna (tabell 2, Additional file 5: tabell S4). Denna cell uppvisar de högsta uttrycksnivåerna på både ChrX och Chr17 (Additional file 1: Text och figur S4). I tabell 2 listas de upptäckta flyktingkandidaterna tillsammans med deras stödjande bevis (tabell 2).
Varje jämförelse av de identifierade flyktingkandidaterna med nuvarande kunskap
Vi testade överensstämmelsen mellan de identifierade flyktingkandidaterna från vår studie och en litteraturbaserad katalog . Denna enhetliga katalog sammanställdes genom integrering av fyra oberoende studier som omfattar 1144 gener från ChrX. Generna i denna katalog är manuellt uppdelade i nio definierade kategorier (se metoder). Den största kategorin omfattar gener som saknar information (45 %) . Ungefär 15 % av generna (168/1144) anses vara ”flyktingassocierade” (se metoder). Vi betraktar den sammanställda uppsättningen av ”escapee-associerade” gener som en guldstandard för att testa escapees upptäcktsfrekvens i vår studie (totalt 124 gener, exkluderade PAR-gener, gemensamt kallade Balaton-Esc).
Vi tillämpade ett hypergeometriskt statistiskt test (se Metodik) för att bedöma överlappningen mellan de olika escapee-genlistorna (fig. 5). Figur 5a visar antalet identifierade escapees från fibroblaster och lymfoblaster (exklusive PAR-gener). Observera att endast gener som ingår i Balaton-Esc benchmark ingår i denna analys (fig. 5). Figur 5b visar den statistiska betydelsen av överlappningen mellan genlistorna från figur 5a och Balaton-Esc . Som framgår finns det en betydande överlappning mellan escapees från lymfoblaster (tabell 2 och Additional file 4: tabell S3) och Balaton-Esc-listan (fig. 5b, p-värde = 7,43E-8). Att tillämpa samma test för primära fibroblaster (tabell 1) resulterade i en lägre signifikans (p-värde = 4,07E-2).
Figur 5c visar överlappningsgener mellan de escapees som identifierats i vår studie och Balaton-Esc-katalogen (168 gener inklusive PAR-gener) . Vi inkluderade också en kompletterande resurs baserad på 940 transkriptom från scRNA-Seq (25 flyktinggener, Tukiainen-Esc) . Venn-diagrammet visar att var och en av ovanstående studier bidrar till den nuvarande kunskapen om flyktingar. Flyktingar från de två externa resurserna överlappar varandra med 18 av 25 rapporterade gener (72 %). Som framgår av figur 5c överlappar 62 % av de escapees som rapporterats från lymfoblasterna med de externa escapee-listorna, medan fibroblasterna stöds av endast 38 % överlappning. Det är anmärkningsvärt att de flesta av våra upptäckta flyktingkandidatgener från fibroblaster (62 %) inte har någon överensstämmelse med de andra testade listorna (Additional file 6: Table S5).
LncRNAs utökar listan över flyktingkandidater
Vi utökade vår analys till långa icke-kodande RNAs (lncRNAs) med hjälp av samma flyktingkriterier som användes från kodande gener (fig. 6). Sammanlagt identifierade vi 15 lncRNAs som escapee-kandidater, bland dem har endast ett fåtal tidigare studerats. Placeringen av lncRNAs och kodande escapees längs ChrX visas (fig. 6a). Vi testade flyktingarnas positioner längs ChrX i förhållande till alla ChrX-gener. Medan positionsfördelningen för lncRNA-flyktingar är likartad (Kolmogorov-Smirnov-test, p-värde = 0,57) är den annorlunda för kodningsflyktingar (Kolmogorov-Smirnov-test, p-värde = 0,004, fig. 6a).
Figur 6b listar alla 15 identifierade lncRNA escapee-gener, bland dem finns ncRNA-gener från XIC som samordnar aktivering och underhåll av X-inaktivering. Många av lncRNA:erna är lokaliserade vid transkriptionellt aktiva segment (t.ex. inom PAR eller XIC), medan andra är lokaliserade i icke-konserverade regioner som är berikade med långa och korta ncRNA:er. För ytterligare ncRNAs, inklusive inaktiverade gener, se Additional file 7: Table S6.
Evidensbaserad partition av escapee-gener
Figur 6c sammanfattar partitionen enligt evidens för alla gener som med någon nivå av konfidens rapporteras som escapee-gener (Additional file 6: Table S5). Denna lista innehåller 75 kandidater som rapporteras i den här studien, inklusive bevis från Pool100, en samling av nya lncRNAs. Figur 6d ger en detaljerad lista över resultatet från dessa data med tanke på serval externa resurser. Antalet celler som ger bevis anges också för varje gen.
Med hänsyn till dessa externa resurser matchade vi varje gen enligt kvaliteten på det oberoende stöd som är kopplat till den (figur 6c och d). Specifikt delade vi upp den 75 genlistan i fyra grupper: (i) Generna betecknas som ”bekräftade” om de rapporteras som flyktingar av båda de tidigare diskuterade externa resurserna . Det finns 31 sådana gener, för vilka den här studien ger ytterligare bekräftelse på deras identitet som flyktingar. (ii) Ytterligare 7 gener märks som ”godkända”. Dessa gener har endast en av de två externa resurserna rapporterat att de är flyktingar. För dessa gener godkänner de oberoende bevisen från denna undersökning deras identitet. (iii) Ytterligare 12 gener är märkta som ”sannolika” flyktingar. Dessa gener tilldelas enligt överenskommelsen med en ytterligare extern rapport som rapporterar om 114 escapees , som inte ingick i den litteraturbaserade katalogen , och som därför kan betraktas som en oberoende resurs. (iv) Ytterligare 25 gener är markerade som ”möjliga” flyktingar. Dessa gener saknar litteraturbevis som styrker deras identitet, och deras klassificering som ”escapees” är därför mindre väl underbyggd. Bland dem stöds 5 gener endast från den utbrytande cellen från lymfoblasten och är därför troligen falska. I denna uppsättning finns ytterligare 10 gener som inte rapporterades av någon av de tre diskuterade externa resurserna , Majoriteten av de förbisedda lncRNA:erna tillhör denna grupp. Två av dessa förbisedda escapee lncRNAs (TCONS_00017125 och TCONS_00017281, fig. 6b) är belägna vid PAR-regionen som är exceptionellt aktiv vid biallelisk transkription. Källdata för fig. 6d finns i Additional file 6: Table S5.