En ramme for måling af flugt fra X-inaktivering i enkeltceller

Vi identificerer flugtpersoner ved at analysere genekspression fra somatiske enkeltceller ved hjælp af scRNA-Seq-metodologi (se Metoder). For at evaluere metodens følsomhed sammenligner vi X-kromosom (ChrX) ekspression med andre autosomale kromosomer. Specifikt fokuserede vi på det genrige kromosom 17 (Chr17) som en prototype på et autosomalt kromosom. Chr17 blev valgt, da det repræsenterer et kromosom med et minimalt antal forældrespecifikke prægede gener . De kvantitative egenskaber for ChrX og Chr17 er anført i fig. 1a.

Fig. 1

Arbejdsgang til identifikation af flugtgener fra enkeltceller. a Kvantitative egenskaber for ChrX og Chr17 er anført i henhold til GRCh37 (GRC Human Build 37). b Et skema til analyse af primær fibroblast med enkeltcelle. De to farver for kerner repræsenterer det tilfældige valg af Xa. I forbindelse med fibroblaster udviser hver Xa et forskelligt ekspressionsmønster for hSNP’erne. Hver af iSNP’erne kan henføres til referenceallelen (R) eller den alternative allel (A). Hvis en celle med en Xa vil have et udtryksmønster på A R A, vil en celle med den alternative Xa udtrykke R A R. På grund af den tilfældige X-inaktivering og fordi hSNP’erne ikke er faseopdelt, er annoteringen af et gen som en escapee udelukkende baseret på, at der er flere beviser for iSNP’er med biallelisk udtryk. Den illustrative tabel viser analysen af iSNP’er fra hver af hSNP’erne (til venstre) i hver af cellerne som A eller R og annotationen af et gen i henhold til akkumuleringen af iSNP-beviserne. Illustrationen markerer hSNP’er, der stammer fra 4 enkelte celler (celle-1 til celle-4). De hSNP’er er forbundet med 3 gener (markeret som gen a til c). Gen a er det eneste gen med flere bialleliske iSNP’er, og derfor er det annoteret som Escapee-gen (Esc). De to andre gener har enten ikke bialleliske iSNP’er (gen b) eller har kun en enkelt iSNP som bevis for biallelisk ekspression (gen c) og er derfor annoteret som Inaktiveret gen (Ina). c Skemaet for de enkeltcellede klonale lymfoblaster. I modsætning til primære fibroblaster (b) er Xa’s forældrenes oprindelse identisk for alle celler. I dette tilfælde af GM12878-cellelinjen er Xa forbundet med den maternelle (M) allel (symboliseret ved pinkfarvede kerner). For lymfoblaster er forekomsten af en faderlig allel (markeret som P) tilstrækkelig til at identificere en iSNP, der udtrykkes fra Xi, og som således potentielt kan annoteres som en escapee. I tabellen til højre er der lagt vægt på, at lymfoblaster kan tildeles en escapee. Kategorierne i tabellen er de samme som i (b). For detaljer om arbejdsgangen og de anvendte protokoller, se Additional file 1: Text and Figure S1

Denne undersøgelse er baseret på analyse af to kvindelige oprindelsesressourcer: (i) Primære UCF1014-fibroblaster (med 104 celler, se Metoder). Dette sæt er specificeret ved en højere dækning af transkriptomiske data, men mangler oplysninger om haplotypefasning (Fig. 1b); (ii) Et mindre datasæt af klonale lymfoblaster (n = 25) fra GM12878-cellinjen med fuldt fasede og sekventerede diploide forældregenomer (Fig. 1c). I begge datasæt er transkription ved heterozygote SNPs (hSNPs) kilden til information til bestemmelse af monoallelisk eller biallelisk ekspression. Hver hSNP i hver celle, der understøttes af ekspressionsbeviser over en forudbestemt tærskelværdi, betragtes som en informativ SNP (iSNP) (se Metoder, Additional file 1: Text). Summen af iSNP’er pr. gen definerer dets unikke etiket som inaktiveret eller escapee-gen (se Metoder, Fig. 1b-c, Yderligere fil 1: Tekst).

Quantificering af biallelisk ekspression fra enkeltcellede primære fibroblaster

Vi analyserede de offentliggjorte scRNA-Seq-data fra kvindelige primære menneskelige fibroblaster . Før analysen tog vi os af en eksperimentel faldgrube, der er relevant for mange enkeltcelleundersøgelser. Faldgruben vedrører celledoblinger, hvor mere end én celle sekventeres pr. I et sådant scenarie vil forskellige aktive X-kromosomer (Xa) fra to forskellige celler, der indgår i prøven, producere et biallelisk signal langs hele X-kromosomet. Selv om andelen af doubletter forventes at være lille, kan det føre til en forkert fortolkning . Før vi analyserede dataene fra fibroblasterne, genbesøgte vi derfor alle 104 fibroblaster og testede deres bialleliske forhold med hensyn til ChrX (se Metoder). Tre celler viste en usædvanlig høj grad af biallelisk ekspression, som kunne indikere en blanding af to forældre X-kromosomer (Additional file 1: Text og Figur S3). Vi fjernede alle tre mistænkelige celler fra alle analyser.

Dernæst talte vi for hver enkelt celle antallet af læsninger, der entydigt blev kortlagt til hSNP-alleler. Det alleliske forhold (AR) for hver iSNP er defineret som brøkdelen af de læsninger, der er kortlagt til den alternative allel (Alt) ud af de samlede læsninger (se Metoder, Yderligere fil 2: Tabel S1). Figur 2a-c opsummerer AR for ChrX, Chr17 og hele de autosomale kromosomer i henhold til den primære fibroblastsamling (101 ud af 104 celler). Desuden viser fig. 2d fordelingen af AR af et annoteret sæt af imprintede gener fra hudvæv (i henhold til ). Som tidligere rapporteret er der tydeligvis en skævhed i kortlægningen i retning af referencegenomet (AR = 0) (fig. 2a-d). Desuden blev der observeret en betydelig andel af monoallelisk ekspression for alle testede sæt (Fig. 2a-d). Denne dominerende forekomst af monoallelisk ekspression i enkelte celler skyldes en kombination af både underudtagning af transskriptioner og et fænomen, der er kendt som “transkriptionel udbrud” .

Fig. 2

Fordelingen af den alleliske ratio (AR) for hver SNP som en brøkdel af opgaverne for Alternative (Alt) ud af Alt- og Reference (Ref)-alleler. X-aksen i de øverste histogrammer går fra 0 til 1,0, hvor 0 angiver, at alle tildelinger er forbundet med Ref-allelen, og 1 angiver alle tildelinger til Alt-allelen. Da størstedelen af iSNP’erne tildeles med AR-værdier på 0 eller 1, er hver analyse vist ved hjælp af to histogrammer. Det nederste histogram fokuserer på ikke-monoalleliske iSNP’er og dækker alle AR-værdier undtagen AR = 0 og AR = 1. Procentdelen af iSNP’er, der er medtaget i de nederste histogrammer, er vist. Fordelingerne af AR er vist for Chr17 (a), autosomale kromosomer (b), ChrX (c) og prægeprægede gener (d). For kildedata, se Additional file 3: Table S2

Vi fokuserede kun på iSNPs, der viser en ikke-monoallelisk signatur (dvs. eksklusive AR = 0 og AR = 1). Vi observerede en markant forskel i AR-fordelingen af ChrX og imprægede gener i forhold til Chr17 og alle autosomale kromosomer (sammenlign Fig. 2a til b og Fig. 2c til d). I overensstemmelse hermed kan der drages flere observationer fra de resultater, der er vist i Fig. 2: (i) Chr17 og alle autosomer deler en lignende AR-profil. (ii) En klar tendens til afbalanceret ekspression (AR = 0,5) er tydelig for alle autosomale kromosomer (Fig. 2a-b), men ikke ChrX eller imprintede gener (Fig. 2c-d). (iii) Fraktionen af ikke-monoallelisk ekspression i autosomale kromosomer er højere (~ 18%) i forhold til ChrX (~ 9%). (iv) Fraktionen af ikke-monoallelisk ekspression i imprintede gener viser et mellemliggende niveau (13 %). Et sådant mellemliggende niveau er sandsynligvis en afspejling af den iboende inkonsekvens i identiteten af de prægetes gener . Ekstra fil 3: Tabel S2 viser de understøttende iSNP’er for alle de analyserede kromosomer i fibroblaster, herunder sættet af imprintede gener.

Identificering af escapees i primær fibroblaster med enkeltcelle

I datasættet af de primære fibroblaster er der 232 og 485 gener, som understøttes af iSNP’er beviser for henholdsvis ChrX og Chr17. Da disse celler mangler oplysninger om genomfasning (fig. 1b), er oplysninger om flugt fra X-kromosomet begrænset til sættet af bialleliske iSNP’er (se fig. 1b). Vi aggregerede iSNP’erne i henhold til deres tilsvarende gener (fig. 1b). Aggregeringen er udført på tværs af forskellige enkeltceller og på tværs af flere iSNPs inden for et specifikt celle-genpar. Et gen vil blive mærket som escapee-kandidat, når det er forbundet med flere bialleliske iSNP’er. I alt identificerede vi 24 sådanne gener (tabel 1), som tegner sig for 10,3 % af alle udtrykte gener i ChrX. Som forventet er andelen af gener på Chr17, der viser biallelisk ekspression, væsentligt højere (49,3 %, Additional file 4: Table S3).

Tabel 1 Escapees fra 101 primære enkeltcellede fibroblaster. En komplet liste over alle gener findes i Additional file 3: Table S4

Tabel 1 indeholder en liste over flugtkandidaterne med varierende grader af støtte. For eksempel er ZFX (Zinc finger X-chromosomal protein) og SMC1A (Structural maintenance of chromosomes protein 1A) generne stærkt understøttet med henholdsvis 103 og 19 bialleliske iSNP’er. En yderligere forøgelse af pålideligheden af identifikationen af undvigere er baseret på, at der er mindst to uafhængige celler, der har bidraget med oplysninger om biallelisk ekspression. Vi viser, at 21 ud af 24 gener opfyldte dette strenge kriterium (tabel 1). Det er bemærkelsesværdigt, at vi blandt de identificerede escapees kun påviste tre PAR-gener (SLC25A6, CD99 og DHRSX, tabel 1). Tilknytningen af disse gener som escapees stemmer overens med den forventede PAR-ekspression. Ud fra antallet af bialleliske PAR-gener ud af de udtrykte PAR-gener anslog vi den falsk negative opdagelsesrate for escapees til at være så høj som 70 % (dvs. vi overså 7 ud af 10 udtrykte PAR-gener). Yderligere fil 4: Tabel S3 viser støtten til tabel 1.

Kvantificering af allelisk ekspression fra klonalt fasede lymfoblaster

En væsentlig begrænsning i den ovenfor beskrevne protokol vedrører manglen på forældrenes haplotypefasning. Under denne indstilling kan iSNP’er ikke tildeles Xa eller Xi. Følgelig begrænser det tilfældige valg af Xi, som karakteriserer de primære celler, opdagelsesraten for escapees. Vi udvidede analysen af scRNA-Seq til lymfoblaster af kvindelig oprindelse fra den klonale cellelinje GM12878 . Se Fig. 1c og Additional file 1: Figur S4.

Figur 3a viser ekspressionsprofilen for enkeltceller af klonale lymfoblaster (n = 25) (Yderligere fil 2: Tabel S1, Yderligere fil 5: Tabel S4). I enhver enkelt celle afspejler den monoalleliske ekspression kombinationen af en underudvælgelse af transskriptioner og fænomenet transkriptionel udbrud . Det er klart, at det maternelle udtryk fra Xa dominerer (Fig. 3a, øverst). En observation, der stemmer overens med den rapporterede maternelle Xa-oprindelse af cellelinjen GM12878 . I de fleste af de analyserede celler er en lille, men væsentlig del af det målte samlede udtryk fra det faderlige Xi-kromosom (Fig. 3a, øverst). I modsætning hertil viser Chr17 og de autosomale kromosomer et lige stort udtryk fra begge alleler (Fig. 3a, midterste og nederste panel).

Figur. 3

Kvantificering af iSNP’ernes etiketter fra 25 enkeltcellede lymfoblaster. a Hver enkelt celle er opdelt i henhold til dens mærkede alleliske iSNP’er på ChrX, Chr17 og alle autosomale kromosomer. iSNP’erne er forbundet med moderlig (lyserød), faderlig (lyseblå) og balanceret ekspression (grå). Cellerne er ordnet fra venstre til højre i henhold til deres iSNP-bidrag (Additional file 1: Figur S4). Til højre vises den sammenfattende statistik for Pool100. b En oversigt over fordelingen af iSNPs-tags for alle 25 enkeltceller på ChrX, Chr17 og autosomale kromosomer. c En oversigt over fordelingen af iSNPs-tags for Pool100. Blå og lyserøde farver er forbundet med henholdsvis den faderlige og moderlige allel. Det stribede mønster angiver bialleliske iSNP’er, der hælder mod faderlige (blå) eller moderlige (pink) alleler. For enkeltceller er dataene baseret på 375 iSNP’er for ChrX, 808 iSNP’er for Chr17 og 20 212 iSNP’er for autosomale kromosomer. Dataene for Pool100 er baseret på 211 iSNP’er for ChrX, 216 for Chr17 og 5360 iSNP’er for autosomale kromosomer. For kildedata se Additional file 5: Table S4

Fra figuren er det tydeligt, at fænomenet transkriptionel udbrud påvirker alle kromosomer, herunder ChrX. For at vurdere virkningen af dette fænomen på identifikation af gener som escapees sammenlignede vi enkelte celler med hensyn til en pulje af celler (Pool100, Fig. 3a, højre bjælke). Mens størstedelen af iSNP’erne fra Chr17 viser bialleliske profiler, domineres ChrX fortsat af et moderligt monoallelisk udtryk.

Figur 3b er en aggregeret visning af ChrX, Chr17 og de autosomale kromosomer. Dataene er baseret på henholdsvis 375, 808 og 20.212 udtrykte hSNP’er. Figur 3b (midterste og højre panel) viser en ligelig fordeling af forældrenes alleler fra Chr17 og autosomale kromosomer (Fig. 3b, øverst). Udførelse af den samme analyse på data indsamlet fra Pool100 (Fig. 3c) viser, at fordelingen af de forældrealleler forbliver praktisk talt uændret (sammenlign den fraktion, der er optaget af lyserøde og blå farver, Fig. 3b-c). Derudover observerede vi et skift fra et monoallelisk (Fig. 3b-c, fyldt farve) til et biallelisk udtryk (Fig. 3b-c, stribet farve). Fraktionen af det bialleliske udtryk for Ch17 steg fra 19 % i enkeltceller til 80 % i Pool100, og for autosomale kromosomer fra 18 til 79 % (Fig. 3c, midterste og højre panel). Resultaterne fra Pool100 viser, at den monoalleliske ekspression, der er observeret i enkeltceller, praktisk talt ophæves ved midling af signalet.

Resultaterne fra ChrX (Fig. 3b (venstre) er fundamentalt forskellige i forhold til Chr17 eller de autosomale kromosomer (Fig. 3b-c). Den mest bemærkelsesværdige forskel er, at kun 21 % af de udtrykte iSNP’er er forbundet med den faderlige Xi-allel i ChrX (Fig. 3b, øverst). Ved analyse af Pool100 er fraktionen af biallelisk ekspression desuden fortsat begrænset (et skift fra 9 % i enkeltceller til 34 % i Pool100). Det observerede mønster for ChrX fra Pool100 (Fig. 3c, venstre) kan bedst forklares ved en gennemsnitlig beregning af det stokastiske monoalleliske signal (i samme grad som de andre kromosomer), samtidig med at der opretholdes et stærkt signal af Xa monoallelisk udtryk. Se Additional file 5: Table S4 for lymfoblasters alleliske forhold for alle testede kromosomer og Pool100.

Identificering af escapees fra enkeltcellede lymfoblastere

Figur 4a er en gencentreret visning, der viser den iSNP alleliske fordeling fra lymfoblastere (farvet efter deres oprindelse som moderlig, faderlig eller blandet ekspression, se Metoder). Kun den delmængde af gener, der understøttes af flere iSNP’er, er opført i henhold til deres rækkefølge langs kromosomerne. I alt rapporterer vi om 93 annoterede gener på ChrX (Fig. 4a, 30 escapees og 63 inaktiverede gener). Bemærk, at de X-inaktiverede gener omfatter gener, som primært udtrykkes fra det maternelle Xa. En klynge af gener med et faderligt udtryk ved spidsen af ChrX p-arm repræsenterer det forventede bialleliske udtryk fra PAR-generne (Fig. 4a). Yderligere beviser for faderlig ekspression er lokaliseret til XIC med gener som XIST, JPX og FTX. Mens de fleste af de undslupne gener understøttes af et begrænset antal iSNP’er, understøttes nogle få af dem, såsom ZFX, CD99 og SLC25A6, af et relativt stort antal understøttende iSNP’er (henholdsvis 48, 38 og 34).

Figur 4

En gencentreret partition af alleler fra lymfeblodceller. a For hvert gen på ChrX er den iSNPs-forældrepartition vist sammen med antallet af iSNP’er. Af hensyn til klarheden er kun gener, der understøttes af > = 2 iSNPS, anført. I alt 93 gener på ChrX er opført efter deres rækkefølge på kromosomet. Farvekoden er i overensstemmelse med iSNP-etiketterne som faderlig, moderlig og afbalanceret udtryk. For kildedata, se Additional file 5: Table S4. b-c Korrelation mellem ekspressionsniveauerne fra de faderlige og moderlige alleler. Spredningsdiagrammerne viser genernes ekspressionsniveauer ved antallet af læsninger, der er forbundet med maternelle (x-akse) og faderlige (y-akse) alleler. Antallet af analyserede gener for hvert scatter plot er angivet (på x-aksen i parentes). De viste data er fra Chr17 (b) og ChrX (c) baseret på enkeltceller og Pool100. Bemærk, at antallet af læsninger for Pool100-dataene er 10 gange mindre i forhold til de kumulative data, der er udtrukket fra enkeltceller. For kildedata, se Additional file 4: Table S3

En alternativ metode til vurdering af omfanget af fænomenet X-inaktivering er ved at kvantificere beviserne direkte fra summen af alle sekventerede reads (forkortet som den read-baserede protokol). Figur 4b-c sammenligner læsningstællinger fra Chr17 (fig. 4b) og ChrX (fig. 4c) efter den faderlige versus moderlige oprindelse. Vi sammenligner ekspressionsdataene fra de enkelte celler og Pool100. Den lineære regression for genekspressionen fra Chr17 viser en høj korrelationstilpasningslinje (r2 = 0,823, fig. 4b). Som forventet er korrelationen stærkere i de data, der stammer fra Pool100 (r2 = 0,946, fig. 4b). Vi konkluderede, at på trods af den monoalleliske ekspression på grund af det transkriptionelle bursting-fænomen er der stærk støtte for en afbalanceret allelisk ekspression af alle generne. For ChrX er den resulterende lineære regression af de enkelte celler imidlertid dårlig (r2 = 0,238, Fig. 4c), og den blev ikke forbedret af dataene fra Pool100 (r2 = 0,222, Fig. 4d). En inspektion af ekspressionsdataene for ChrX viser, at regressionslinjerne faktisk hælder mod det moderlige Xa-udtryk (x-aksen). Ekspressionsdataene er i overensstemmelse med to forskellige regressionslinjer for ChrX. Den ene, der passer til de inaktiverede gener (parallelt med x-aksen), og den anden passer til et tillidsfuldt biallelisk udtryk.

Anvendelse af den konservative iSNP-baserede protokol fører til identifikation af 30 gener som flugtkandidater, der også understøttes af den læsebaserede protokol (tabel 2). Den læsebaserede (dvs, mærkning af et gen som escapee ved at have et minimalt antal faderlige læsninger, se Metoder) udvidede listen over escapee-kandidater til at omfatte i alt 49 gener (Yderligere fil 4: Tabel S3).

Tabel 2 Escapees fra 25 klonale enkeltcellede lymfoblaster

Testning af den forældremæssige oprindelse af alleler langs et gen i samme celle er en streng test for pålideligheden af iSNP’erne. Denne test er kun gyldig for gener med flere hSNP’er. Sådanne gener, der understøttes med to eller flere udtrykkende hSNP’er, udgør 44 % af generne. Vi anser et gen for at være konsistent, hvis ekspressionen langs genet i en specifik celle ikke er monoallelisk for begge alleler. Samlet set identificerede vi 3 inkonsistente gener – TEX11, FTX og ZCCHC16. For yderligere 6 gener er inkonsekvensen kun delvis, da der er andre observationer af biallelisk udtryk. Estimatet fra fuld inkonsekvens (3 ud af de 29 gener, der kunne komme i betragtning til denne test) tyder på, at en øvre grænse for en fejlagtig fortolkning på 10 %. Derudover identificerede den iSNP-baserede protokol 9 ud af de 11 udtrykte PAR-gener. Vi ekstrapolerer således flugtningsdetektionsraten til at være 82 %. Interessant nok viste analysen af Chr17 under den antagelse, at der ikke er nogen systematisk allelisk skævhed , at 7,3 og 9,6 % af generne var forbundet med henholdsvis moderlig og faderlig monoallelisk ekspression. Disse resultater giver en øvre grænse på 17,9 % for sandsynligheden for falsk genmærkning i Chr17 og kan bruges til at estimere begrænsningen af metoden.

Kræver man faderlige beviser fra mindst to celler, reduceres antallet af undslupne fra 49 til 18 (herunder 5 PAR-gener). Mange enkeltbevisgener, der skyldes en specifik udbrydercelle (SRR764803), der bidrog til 17 af de 49 rapporterede gener (Tabel 2, Additional file 5: Tabel S4). Denne celle udviser de højeste ekspressionsniveauer på både ChrX og Chr17 (Yderligere fil 1: Tekst og figur S4). Tabel 2 viser de opdagede flugtkandidater sammen med deres understøttende beviser (Tabel 2).

Sammenligning af de identificerede flugtkandidater med den nuværende viden

Vi testede overensstemmelsen mellem de identificerede flugtkandidater fra vores undersøgelse og et litteraturbaseret katalog . Dette forenede katalog blev udarbejdet ud fra integrationen af fire uafhængige undersøgelser, der dækker 1144 gener fra ChrX. Generne i dette katalog er manuelt opdelt i ni definerede kategorier (se Metoder). Den største tegner sig for gener, der mangler information (45%) . Omkring 15 % af generne (168/1144) betragtes som “escapee-associerede” (se Metoder). Vi betragter det kompilerede sæt af ‘escapee-associerede’ gener som en guldstandard til at teste escapee’s opdagelsesrate i vores undersøgelse (i alt 124 gener, ekskluderet PAR-gener, kollektivt kaldet Balaton-Esc).

Vi anvendte en hypergeometrisk statistisk test (se Metoder) for at vurdere overlapningen af de forskellige escapee-genlister (Fig. 5). Figur 5a viser antallet af identificerede escapees fra fibroblaster og lymfoblaster (eksklusive PAR-generne). Bemærk, at kun gener, der er medtaget i Balaton-Esc-benchmarken, er medtaget i denne analyse (fig. 5). Figur 5b viser den statistiske signifikans af overlapningen mellem genlisterne fra Fig. 5a og Balaton-Esc . Som det kan ses, er der et signifikant overlap mellem escapees fra lymfoblaster (tabel 2 og Additional file 4: tabel S3) og Balaton-Esc-listen (fig. 5b, p-værdi = 7,43E-8). Anvendelse af den samme test for de primære fibroblaster (tabel 1) resulterede i en lavere signifikans (p-værdi = 4,07E-2).

Fig. 5

Identificerede escapees og statistisk signifikans af overlapningen med litteraturbaseret katalog udarbejdet af Balaton et al. . a Antallet af escapees identificeret ved hver af analyserne. Tallene omfatter kun gener, der var til stede i Balaton et al. og udelukker PAR-gener. b Statistisk analyse baseret på den hypergeometriske fordeling, der måler overlapningen mellem den litteraturbaserede liste som præsenteret af Balaton et al. og de undslupne, der er tildelt i denne undersøgelse (som i (a)). Y-aksen er -log10(x) af den beregnede p-værdi. c Venn-diagram af de 4 sæt af undslupne i henhold til de analyserede fibroblaster og lymfoblaster, Balaton-Esc-samlingen , og Tukiainen-Esc . Herunder PAR. For nærmere oplysninger se teksten. Kildedata i Additional file 6: Table S5

Figur 5c viser overlapningsgenerne mellem de escapees, der er identificeret i vores undersøgelse og Balaton-Esc-kataloget (168 gener inklusive PAR-gener) . Vi inkluderede også en komplementær ressource baseret på 940 transkriptomer fra scRNA-Seq (25 flugtgener, Tukiainen-Esc) . Venn-diagrammet viser, at hver af de ovennævnte undersøgelser bidrager til den nuværende viden om flugtninge. Flugtgener fra de to eksterne ressourcer overlapper hinanden med 18 ud af de 25 rapporterede gener (72 %). Som det fremgår af fig. 5c, overlapper 62 % af de escapees, der er rapporteret fra lymfoblasterne, med de eksterne escapee-lister, mens fibroblasterne kun støttes af 38 % overlapning. Det er bemærkelsesværdigt, at de fleste af vores opdagede escapee-kandidatgener fra fibroblaster (62%) ikke har nogen korrespondance med de andre testede lister (Additional file 6: Table S5).

LncRNA’er udvider listen over escapee-kandidater

Vi udvidede vores analyse til lange ikke-kodende RNA’er (lncRNA’er) ved hjælp af de samme escapee-kriterier som dem, der anvendes fra kodende gener (Fig. 6). I alt identificerede vi 15 lncRNA’er som escapee-kandidater, blandt hvilke kun nogle få af dem tidligere er blevet undersøgt. Placeringen af lncRNA’erne og de kodende flugtgener langs ChrX er vist (fig. 6a). Vi testede positionerne af escapees langs ChrX i forhold til alle ChrX-gener. Mens positionsfordelingen for lncRNA-flygtninge er ens (Kolmogorov-Smirnov-test, p-værdi = 0,57), er den anderledes for kodningsflugtninge (Kolmogorov-Smirnov-test, p-værdi = 0,004, Fig. 6a).

Fig. 6

LncRNA’er, der er tildelt som escapees, og grupperne af escapees i henhold til deres konfidensniveau. a Spredningen af escapees langs ChrX. Escapees, der tilhører lncRNA’erne og de kodende gener, er angivet henholdsvis over og under skemaerne for ChrX. b En tabel med en liste over de 15 lncRNA escapee-kandidater. Den orange farve angiver escapee og den grå inaktiveret. En tildeling, der er baseret på en enkelt iSNP, er markeret med lys orange. Det hvide angiver manglende indberetning eller ingen udtryk. XIC, X inactivation center region. c Fordeling af de 75 gener, der blev nævnt som escapee-kandidater i denne undersøgelse. Kategorierne er mærket med “bekræftet”, “godkendt”, “sandsynlig” og “mulig” (se tekst). De to eksterne ressourcer, der er anvendt til at definere grupperne, er fra litteraturen og fra enkeltcelle ved . For en gruppe af ‘sandsynlige’ undslupne personer brugte vi undslupne personers annotationer fra som beviser. Bemærk, at 11 af de 15 listede lncRNA-gener er medtaget i gruppen af ‘mulige’ flugtninge. d En oversigt over de evidensbaserede grupper for 75 gener. Generne er sorteret i henhold til de 4 bevisgrupper (som i c). Lysorange angiver escapees, der understøttes af et enkelt bevis fra kun én celle i fibroblaster. Inaktiverede gener er farvet grå. Hvid farve angiver intet udtryk eller manglende indberetning. Cellebeviserne er farvekodet og viser støtte fra én (lyseblå) eller flere celler (mørkeblå). Tilfælde, hvor beviserne kun er baseret på Pool100, er også markeret lyseblå. PAR-gener og lncRNA’er er markeret. Kildedata er i Additional file 6: Table S5

Figur 6b viser alle 15 identificerede lncRNA-flugtgener, blandt dem er ncRNA-gener fra XIC, der koordinerer aktivering og vedligeholdelse af X-inaktivering. Mange af lncRNA’erne er lokaliseret ved transkriptionelt aktive segmenter (f.eks. inden for PAR eller XIC), mens andre er lokaliseret i ikke-konserverede regioner, som er beriget med lange og korte ncRNA’er. For yderligere lncRNA’er, herunder inaktiverede gener, se Additional file 7: Table S6.

Evidensbaseret partition af flugtgener

Figur 6c opsummerer partitionen i henhold til evidensen for alle gener, der er rapporteret med nogen niveauer af tillid som flugtgener (Additional file 6: Table S5). Denne liste omfatter 75 kandidater, der er rapporteret i denne undersøgelse, herunder beviser fra Pool100, en samling af nye lncRNA’er. Figur 6d indeholder en detaljeret liste over fund fra disse data i lyset af serval eksterne ressourcer. Antallet af celler, der leverer beviser, er også angivet for hvert gen.

Idet vi tog hensyn til disse eksterne ressourcer, matchede vi hvert gen i henhold til kvaliteten af den uafhængige støtte, der er forbundet med det (figur 6c og d). Specifikt opdelte vi den 75-genliste i fire grupper: (i) Generne er mærket “bekræftet”, hvis de er rapporteret som undslupne af begge tidligere omtalte eksterne ressourcer . Der er 31 sådanne gener, for hvilke denne undersøgelse giver yderligere bekræftelse af deres identitet som escapees. (ii) Yderligere 7 gener er mærket “godkendt”. Disse gener er kun mærket som escapees af en af de to eksterne kilder . For disse gener bekræfter den uafhængige dokumentation fra denne undersøgelse deres identitet. (iii) Yderligere 12 gener er markeret som “sandsynlige” flugtgener. Disse gener er tildelt i overensstemmelse med aftalen med en yderligere ekstern rapport, der rapporterer om 114 escapees , som ikke var medtaget i det litteraturbaserede katalog , og som derfor kan betragtes som en uafhængig ressource. (iv) Yderligere 25 gener er markeret som “mulige” undslupne gener. Disse gener mangler dokumentation fra litteraturen til støtte for deres identitet, og deres tildeling som undslupne gener er derfor mindre understøttet. Blandt dem er 5 gener kun understøttet af udbrydercellen fra lymfoblasten og er derfor sandsynligvis falske. I dette sæt er der yderligere 10 gener, som ikke blev rapporteret af nogen af de tre omtalte eksterne ressourcer , Hovedparten af de oversete lncRNA’er tilhører denne gruppe. To af disse oversete escapee lncRNA’er (TCONS_00017125 og TCONS_00017281, Fig. 6b) er placeret ved PAR-regionen, som er usædvanligt aktiv i biallelisk transkription. Kildedataene for Fig. 6d findes i Additional file 6: Table S5.

admin

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

lg