A framework for measuring the escape from X-inactivation in single cells

A escapees gének azonosítása szomatikus egysejtes gének expressziójának elemzésével történik scRNA-Seq módszertannal (lásd Módszerek). A módszer érzékenységének értékeléséhez összehasonlítjuk az X-kromoszóma (ChrX) expresszióját más autoszomális kromoszómákkal. Konkrétan a génben gazdag 17-es kromoszómára (Chr17), mint az autoszomális kromoszóma prototípusára összpontosítottunk. A Chr17-et azért választottuk, mert olyan kromoszómát képvisel, amely minimális számú szülő-specifikusan imprintelt génnel rendelkezik . A ChrX és Chr17 kvantitatív tulajdonságait az 1a. ábra tartalmazza.

1. ábra

A munkafolyamat a menekülő gének azonosítására egysejtűekből. a A ChrX és Chr17 kvantitatív tulajdonságai a GRCh37 (GRC Human Build 37) szerint vannak felsorolva. b Egysejtű primer fibroblasztok elemzésének sémája. A sejtmagok két színe az Xa véletlenszerű választását jelenti. A fibroblasztok kontextusában minden Xa más-más expressziós mintázatot mutat a hSNP-k esetében. Az iSNP-k mindegyike hozzárendelhető a referencia (R) vagy az alternatív allélhoz (A). Ha egy sejt az egyik Xa-val A R A expressziós mintázatot mutat, egy sejt az alternatív Xa-val R A R-t fog expresszálni. A véletlenszerű X inaktiváció és a hSNP-k nem fázisa miatt egy gén menekültként történő annotálása teljes mértékben azon alapul, hogy több bizonyíték van a biallelikus expressziójú iSNP-kre. A szemléltető táblázat az egyes hSNP-k (bal oldalon) minden egyes sejtben az iSNP-k A vagy R elemzése, valamint egy gén annotálása az iSNP-bizonyítékok halmozódása alapján. Az illusztráció 4 egyes sejtből (sejt-1-től sejt-4-ig) származó hSNP-ket jelöl. A hSNP-k 3 génhez kapcsolódnak (a-tól c génig jelölve). Az a gén az egyetlen gén, amely több biallelikus iSNP-t tartalmaz, így azt Escapee génként (Esc) jegyeztük fel. A másik két gén vagy nem rendelkezik biallelikus iSNP-vel (b gén), vagy csak egyetlen iSNP bizonyítja a biallelikus kifejeződést (c gén), ezért inaktivált génként (Ina) vannak annotálva. c Az egysejtű klonális lymphoblastok sémája. A primer fibroblasztokkal (b) ellentétben az Xa szülői eredete minden sejt esetében azonos. A GM12878 sejtvonal esetében a Xa az anyai (M) allélhez társul (rózsaszínű sejtmagok szimbolizálják). A lymphoblastok esetében az apai allél (P-vel jelölve) előfordulása elegendő a Xi-ből kifejeződő iSNP azonosításához, és így potenciálisan menekülőnek annotálható. A jobb oldali táblázat a lymphoblastok escapee hozzárendelését hangsúlyozta. A táblázat kategóriái megegyeznek a b) pontban szereplő kategóriákkal. A munkafolyamat és az alkalmazott protokollok részleteit lásd: Additional file 1: Text and Figure S1

A tanulmány két női eredetű forrás elemzésén alapul: (i) primer UCF1014 fibroblasztok (104 sejtet tartalmaz, lásd a Módszerek című részt). Ezt a halmazt nagyobb lefedettségű transzkriptomikai adatokkal specifikálták, de hiányzik belőle a haplotípus-fázissal kapcsolatos információ (1b. ábra); (ii) a GM12878 sejtvonalból származó klonális limfoblasztok kisebb adathalmaza (n = 25), teljes mértékben fázissal és szekvenált szülői diploid genommal (1c. ábra). Mindkét adathalmazban a heterozigóta SNP-k (hSNP-k) transzkripciója az információ forrása a monoallelikus vagy biallelikus expresszió meghatározásához. Minden hSNP-t, minden sejtben, amelyet egy előre meghatározott küszöbérték feletti expressziós bizonyíték támaszt alá, informatív SNP-nek (iSNP) tekintünk (lásd Módszerek, Additional file 1: Text). Az iSNP-k összege génenként meghatározza annak egyedi címkéjét, mint inaktivált vagy menekülő gén (lásd Módszerek, 1b-c ábra, Additional file 1: Text).

A biallelikus expresszió számszerűsítése egysejtű primer fibroblasztokból

Elemeztük a közzétett scRNA-Seq adatokat női primer humán fibroblasztokból . Az elemzés előtt gondoskodtunk egy kísérleti buktatóról, amely számos egysejtes vizsgálat szempontjából releváns. A buktató olyan sejtpárosításokra vonatkozik, amelyekben egy könyvtáron belül egynél több sejtet szekvenálnak. Ilyen forgatókönyv esetén a mintában szereplő két különböző sejtből származó különböző aktív X-kromoszómák (Xa) a teljes X-kromoszóma mentén biallelikus jelet eredményeznek. Bár a dubletták aránya várhatóan kicsi lesz, ez téves értelmezéshez vezethet . Ezért a fibroblasztokból származó adatok elemzése előtt újra megvizsgáltuk mind a 104 fibroblasztot, és megvizsgáltuk a biallelikus arányukat a ChrX tekintetében (lásd Módszerek). Három sejt kivételesen magas fokú biallelikus expressziót mutatott, ami két szülői X-kromoszóma keveredésére utalhat (Additional file 1: Text és S3 ábra). Mindhárom gyanús sejtet eltávolítottuk az összes elemzésből.

Ezután minden egyes sejt esetében megszámoltuk azon leolvasások számát, amelyek egyedileg hSNP allélokhoz voltak leképezve. Az egyes iSNP-k allélarányát (AR) az alternatív allélhoz (Alt) leképezett leolvasásoknak az összes leolvasáshoz viszonyított hányadaként határoztuk meg (lásd Módszerek, Additional file 2: S1 táblázat). A 2a-c. ábra összefoglalja a ChrX, Chr17 és a teljes autoszómális kromoszómák AR-ját a primer fibroblasztgyűjtemény (101 a 104 sejtből) szerint. Ezenkívül a 2d. ábra a bőrszövetekből származó imprintált gének egy annotált készletének AR-eloszlását mutatja (a ) szerint. Amint arról korábban már beszámoltunk, a referencia genom (AR = 0) felé történő térképezés torzítása nyilvánvaló (2a-d ábra). Ezenkívül a monoallelikus expresszió jelentős hányadát figyeltük meg minden vizsgált génkészlet esetében (2a-d ábra). A monoallelikus expressziónak ezt a domináns megjelenését az egyes sejtekben egyrészt a transzkriptumok alulmintavételezésének, másrészt az úgynevezett “transzkripciós kitörés” jelenségének kombinációja okozza .

2. ábra

Az egyes SNP-k allelikus arányának (AR) eloszlása az Alt és referencia (Ref) allélokból az alternatív (Alt) allélokhoz való hozzárendelések töredékeként. A felső hisztogramok X-tengelye 0 és 1,0 között mozog, ahol a 0 azt jelzi, hogy minden hozzárendelés a Ref-allélhez, az 1 pedig az Alt-allélhez tartozó összes hozzárendelést jelzi. Mivel az iSNP-k többsége 0 vagy 1 AR-értékkel van hozzárendelve, az egyes elemzéseket két hisztogram mutatja. Az alsó hisztogram a nem monoallelikus iSNP-kre összpontosít, és az AR = 0 és AR = 1 kivételével minden AR-értéket lefed. Az alsó hisztogramokban szereplő iSNP-k százalékos aránya látható. Az AR eloszlásait a Chr17 (a), az autoszomális kromoszómák (b), a ChrX (c) és az imprintált gének (d) esetében mutatjuk be. A forrásadatokat lásd a 3. kiegészítő fájlban: S2. táblázat

Kizárólag azokra az iSNP-kre összpontosítottunk, amelyek nem monoallelikus szignatúrát mutatnak (azaz az AR = 0 és AR = 1 kizárásával). Jelentős különbséget figyeltünk meg a ChrX és az imprintált gének AR-eloszlásában a Chr17 és az összes autoszomális kromoszómához képest (vö. 2a-b és 2c-d ábra). Ennek megfelelően a 2. ábrán látható eredményekből több megállapítás is levonható: (i) A Chr17 és az összes autoszóma hasonló AR-profilon osztozik. (ii) Egyértelmű tendencia mutatkozik a kiegyensúlyozott expresszió (AR = 0,5) irányába minden autoszómális kromoszóma esetében (2a-b ábra), de a ChrX vagy az imprintált gének esetében nem (2c-d ábra). (iii) A nem monoallelikus expresszió aránya az autoszomális kromoszómákon magasabb (~ 18%) a ChrX-hez (~ 9%) képest. (iv) Az imprintált génekben a nem-monoallelikus expresszió hányada köztes szintet mutat (13%). Ez a köztes szint valószínűleg az imprintelt gének identitásában rejlő következetlenséget tükrözi . Kiegészítő fájl 3: Az S2. táblázat felsorolja a támogató iSNP-ket az összes elemzett kromoszómára vonatkozóan a fibroblasztokban, beleértve az imprintelt génkészletet is.

Identifying escapees in single cell primary fibroblasts

A primer fibroblasztok adathalmazában 232 és 485 gén van, amelyeket a ChrX és a Chr17 esetében iSNP bizonyíték támaszt alá. Mivel ezekből a sejtekből hiányzik a genom fázisára vonatkozó információ (1b. ábra), az X-kromoszómáról való menekülésre vonatkozó információ a biallelikus iSNP-k halmazára korlátozódik (lásd 1b. ábra). Az iSNP-ket a hozzájuk tartozó gének szerint aggregáltuk (1b. ábra). Az aggregációt különböző egyedi sejtekre és egy adott sejt-gén pároson belül több iSNP-re vonatkozóan végeztük el. Egy gént akkor jelölünk menekülő jelöltnek, ha több biallelikus iSNP-hez társul. Összesen 24 ilyen gént azonosítottunk (1. táblázat), amelyek a ChrX-ben kifejezett összes gén 10,3%-át teszik ki. A várakozásoknak megfelelően a Chr17-en a biallelikus expressziót mutató gének aránya lényegesen magasabb (49,3%, Additional file 4: S3 táblázat).

Táblázat 1 Escapees gének 101 primer egysejtű fibroblasztból. Az összes gén teljes listája elérhető a Additional file 3: Table S4

Az 1. táblázat a különböző támogatottságú szökevényjelölteket sorolja fel. Például a ZFX (Zinc finger X-chromosomal protein) és az SMC1A (Structural maintenance of chromosomes protein 1A) gének 103, illetve 19 biallelikus iSNP-vel erősen támogatottak. A menekülők azonosításának megbízhatóságát tovább növeli, ha legalább 2 független sejt hozzájárult a biallelikus expresszióra vonatkozó információval. Megmutattuk, hogy 24 génből 21 megfelelt ennek a szigorú kritériumnak (1. táblázat). Figyelemre méltó, hogy az azonosított escapeek között csak három PAR gént detektáltunk (SLC25A6, CD99 és DHRSX, 1. táblázat). Ezeknek a géneknek a menekülő génekként való besorolása megegyezik a várt PAR-expresszióval. Az expresszált PAR gének közül a biallelikus PAR gének száma alapján az escape gének hamis negatív felfedezési arányát 70%-ra becsültük (azaz 10 expresszált PAR génből 7-et kihagytunk). A 4. kiegészítő fájl: S3. táblázat az 1. táblázat alátámasztását mutatja.

A klonális fázisú limfoblasztokból származó allélkifejeződések számszerűsítése

A fent leírt protokoll egyik fő korlátja a szülői haplotípus-fázis hiánya. Ebben a beállításban az iSNP-k nem rendelhetők Xa vagy Xi csoportba. Következésképpen az Xi véletlenszerű kiválasztása, amely az elsődleges sejteket jellemzi, korlátozza a menekülők felfedezési arányát. Az scRNA-Seq elemzését kiterjesztettük a GM12878 klonális sejtvonalból származó női eredetű limfoblasztokra. Lásd az 1c. ábrát és az 1. kiegészítő fájlt: S4 ábra.

A 3a. ábra a klonális lymphoblastok egysejtjeinek (n = 25) expressziós profilját mutatja (Additional file 2: S1 táblázat, Additional file 5: S4 táblázat). Minden egyes sejtben a monoallelikus expresszió a transzkriptumok alulmintavételezésének és a transzkripciós kitörés jelenségének kombinációját tükrözi . Egyértelmű, hogy a Xa anyai expressziója dominál (3a. ábra, fent). Ez a megfigyelés megegyezik a GM12878 sejtvonal anyai Xa eredetéről szóló jelentéssel . Az elemzett sejtek többségében a mért teljes expresszió kis, de jelentős hányada az apai, Xi kromoszómáról származik (3a. ábra, fent). Ezzel szemben a Chr17 és az autoszomális kromoszómák mindkét allélból azonos mértékű expressziót mutatnak (3a. ábra, középső és alsó panelek).

Ábra. 3

Az iSNP-k jelöléseinek számszerűsítése 25 egysejtes limfoblasztból. a Minden egyes sejtet a ChrX, Chr17 és az összes autoszómális kromoszómán található jelölt allél iSNP-k szerint osztottunk fel. Az iSNP-khez anyai (rózsaszín), apai (világoskék) és kiegyensúlyozott expresszió (szürke) társul. A sejtek balról jobbra haladva az iSNP-hozzájárulásuk szerint vannak rendezve (Additional file 1: S4 ábra). Jobbra a Pool100 összefoglaló statisztikája látható. b Az iSNPs címkék felosztásának összefoglalása mind a 25 egyes sejt esetében a ChrX, Chr17 és autoszomális kromoszómákon. c Az iSNPs címkék felosztásának összefoglalása a Pool100 esetében. A kék és rózsaszín színek az apai és anyai allélokhoz kapcsolódnak. A csíkos mintázat az apai (kék) vagy anyai (rózsaszín) allélok felé hajló biallelikus iSNP-ket jelzi. Az egyes sejtek esetében az adatok 375 iSNP-n alapulnak a ChrX, 808 iSNP-n a Chr17 és 20 212 iSNP-n az autoszomális kromoszómák esetében. A Pool100 adatai 211 iSNP-n alapulnak a ChrX esetében, 216-on a Chr17 esetében és 5360 iSNP-n az autoszomális kromoszómák esetében. A forrásadatokat lásd: Additional file 5: Table S4

Az ábrából látható, hogy a transzkripciós kitörés jelensége minden kromoszómát érint, beleértve a ChrX-et is. Annak felmérésére, hogy ez a jelenség milyen hatással van a menekülő gének azonosítására, összehasonlítottuk az egyes sejteket egy sejtekből álló pool (Pool100, 3a. ábra, jobb oldali sáv) tekintetében. Míg a Chr17-ből származó iSNP-k többsége biallelikus profilt mutat, a ChrX-en továbbra is az anyai monoallelikus expresszió dominál.

A 3b. ábra a ChrX, Chr17 és az autoszomális kromoszómák összesített nézete. Az adatok 375, 808 és 20 212 kifejezett hSNP-n alapulnak. A 3b. ábra (középső és jobb oldali panelek) a Chr17 és az autoszómális kromoszómák szülői alléljainak egyenlő arányú felosztását mutatja (3b. ábra, fent). Ugyanezt az elemzést elvégezve a Pool100-ból gyűjtött adatokon (3c. ábra) látható, hogy a szülői allélek felosztása gyakorlatilag változatlan marad (hasonlítsuk össze a rózsaszín és kék színek által elfoglalt frakciót, 3b-c. ábra). Emellett megfigyeltünk egy eltolódást a monoallelikus (3b-c. ábra, kitöltött szín) és a biallelikus kifejeződés között (3b-c. ábra, csíkozott szín). A biallelikus expresszió aránya a Ch17 esetében az egysejtűek 19%-áról 80%-ra nőtt a Pool100-ban, az autoszomális kromoszómák esetében pedig 18-ról 79%-ra (3c. ábra, középső és jobb oldali panel). A Pool100-ból származó eredmények azt mutatják, hogy az egyes sejtekben megfigyelt monoallelikus expresszió gyakorlatilag megszűnik a jel átlagolásával.

A ChrX-ről (3b. ábra (balra)) kapott eredmények alapvetően különböznek a Chr17-hez vagy az autoszomális kromoszómákhoz képest (3b-c. ábra). A legszembetűnőbb különbség az, hogy a ChrX-ben a kifejezett iSNP-knek csak 21%-a társul az apai Xi allélhez (3b. ábra, fent). Továbbá a Pool100 elemzése során a biallelikus expresszió frakciója továbbra is korlátozott (az egyes sejtek 9%-áról 34%-ra változik a Pool100-ban). A Pool100-ból származó ChrX megfigyelt mintázata (3c. ábra, balra) leginkább a sztochasztikus monoallelikus jel átlagolásával magyarázható (a többi kromoszómával azonos mértékben), miközben a Xa monoallelikus expresszió erős jele megmarad. Lásd Additional file 5: Table S4 az összes vizsgált kromoszóma és a Pool100 limfoblasztok allélarányát.

Identifying escapees from single cell lymphoblasts

A 4a. ábra egy géncentrikus nézet, amely a limfoblasztokból származó iSNP allélpartícióját mutatja (a származásuk szerint színezve, mint anyai, apai vagy vegyes expresszió, lásd Módszerek). Csak a több iSNP-vel támogatott gének azon részhalmaza van felsorolva a kromoszómák mentén való elrendezésük szerint. Összesen 93 annotált génről számolunk be a ChrX-en (4a. ábra, 30 menekülő és 63 inaktivált gén). Megjegyzendő, hogy az X-inaktivált gének olyan géneket jelentenek, amelyeket elsősorban az anyai Xa fejez ki. A ChrX p-karjának csúcsán található apai expressziójú gének klasztere a PAR génekből várható biallelikus expressziót képviseli (4a. ábra). Az apai expresszió további bizonyítékai a XIC-re lokalizálódnak olyan génekkel, mint a XIST, JPX és FTX. Míg a legtöbb menekülő gént korlátozott számú iSNP támogatja, néhányat közülük, mint például a ZFX, a CD99 és az SLC25A6, viszonylag sok támogató iSNP támogat (48, 38, illetve 34).

4. ábra

A limfoblaszt sejtek alléljainak géncentrikus felosztása. a Minden gén esetében a ChrX-en az iSNPs szülői felosztás az iSNP-k számával együtt látható. Az áttekinthetőség érdekében csak a > = 2 iSNPS által támogatott gének szerepelnek. A ChrX-en összesen 93 gént sorolunk fel a kromoszómán belüli sorrendjük szerint. A színkód az iSNP címkék szerint apai, anyai és kiegyensúlyozott kifejeződésű. A forrásadatokat lásd: Additional file 5: Table S4. b-c Az apai és anyai allélok expressziós szintjei közötti korreláció. A szórásdiagramok a gének expressziós szintjeit mutatják az anyai (x-tengely) és az apai (y-tengely) allélokhoz tartozó leolvasások száma szerint. Az egyes szórásdiagramokban az elemzett gének száma szerepel (az x-tengelyen, zárójelben). Az ábrázolt adatok a Chr17 (b) és ChrX (c) egysejtűek és Pool100 alapján készültek. Megjegyzendő, hogy a Pool100 adatok esetében a leolvasások száma 10-szer kevesebb az egyes sejtekből kinyert kumulatív adatokhoz képest. A forrásadatokat lásd: Additional file 4: Table S3

Az X-inaktiváció jelenségének mértékének értékelésére szolgáló alternatív módszer a bizonyítékok számszerűsítése közvetlenül az összes szekvenált olvasás összegéből (röviden olvasásalapú protokoll). A 4b-c ábra a Chr17 (4b. ábra) és a ChrX (4c. ábra) olvasatszámát hasonlítja össze az apai versus anyai eredet szerint. Összehasonlítjuk az egyes sejtek és a Pool100 expressziós adatait. A Chr17-ből származó génexpresszió lineáris regressziója magas korrelációs fit-line-t mutat (r2 = 0,823, 4b. ábra). A várakozásoknak megfelelően a Pool100-ból származó adatoknál a korreláció erősebb (r2 = 0,946, 4b. ábra). Arra a következtetésre jutottunk, hogy a transzkripciós bursting jelenség miatti monoallelikus expresszió ellenére az összes gén kiegyensúlyozott allélikus expressziója erősen támogatott. A ChrX esetében azonban az egyes sejtekből kapott lineáris regresszió gyenge (r2 = 0,238, 4c. ábra), és a Pool100-ból származó adatok sem javítottak rajta (r2 = 0,222, 4d. ábra). A ChrX expressziós adatait vizsgálva látható, hogy a regressziós egyenesek valójában az anyai Xa expresszió felé hajlanak (x-tengely). Az expressziós adatok a ChrX esetében két különböző regressziós vonalnak felelnek meg. Az egyik az inaktivált géneknek felel meg (az x-tengellyel párhuzamosan), a másik pedig egy megbízhatóan biallelikus expressziónak.

A konzervatív iSNP-alapú protokollt alkalmazva 30 olyan gént azonosítunk menekülő jelöltként, amelyeket az olvasásalapú protokoll is támogat (2. táblázat). A read-alapú (azaz, egy gént az apai leolvasások minimális száma alapján jelölünk menekülőként, lásd Módszerek) protokollja összesen 49 génre bővítette a menekülő jelöltek listáját (Additional file 4: S3. táblázat).

2. táblázat 25 klonális egysejtű limfoblasztból származó menekülők

A gén mentén egyazon sejtben lévő allélok szülői eredetének vizsgálata az iSNP-k megbízhatóságának szigorú tesztje. Ez a teszt csak több hSNP-vel rendelkező génekre érvényes. Az ilyen, két vagy több kifejező hSNP-vel alátámasztott gének a gének 44%-át teszik ki. Egy gént akkor tekintünk konzisztensnek, ha a gén mentén történő expresszió egy adott sejtben nem monoallelikus mindkét allél esetében. Összesen 3 inkonzisztens gént azonosítottunk: TEX11, FTX és ZCCHC16. További 6 gén esetében az inkonzisztencia csak részleges, mivel más megfigyelések is vannak a biallelikus expresszióra. A teljes inkonzisztenciából származó becslés (3 a 29 génből, amelyek alkalmasak voltak erre a tesztre) azt sugallja, hogy a hibás értelmezés felső határa 10%. Ezenkívül az iSNP-alapú protokoll a 11 expressziós PAR-génből 9-et azonosított. Így az elkerült felismerési arányt 82%-ra extrapoláljuk. Érdekes módon a Chr17 elemzése, feltételezve, hogy nincs szisztematikus allelikus torzítás , azt mutatta, hogy a gének 7,3 és 9,6%-a az anyai, illetve az apai monoallelikus expresszióhoz társult. Ezek az eredmények 17,9%-os felső határt adnak a Chr17-ben a hamis génjelölés valószínűségének, és felhasználhatók a módszer korlátjának becslésére.

A legalább két sejtből származó apai bizonyíték megkövetelése 49-ről 18-ra csökkenti a menekülők számát (beleértve 5 PAR gént). Sok egyetlen evidenciával rendelkező gén egy bizonyos kiugró sejtből (SRR764803) származik, amely a 49 bejelentett génből 17-hez járult hozzá (2. táblázat, Additional file 5: Table S4). Ez a sejt mutatja a legmagasabb expressziós szintet mind a ChrX-en, mind a Chr17-en (Additional file 1: Text and Figure S4). A 2. táblázat felsorolja a felfedezett szökevényjelölteket az őket alátámasztó bizonyítékokkal együtt (2. táblázat).

Az azonosított szökevények összehasonlítása a jelenlegi ismeretekkel

Vizsgáltuk a vizsgálatunkban azonosított szökevények és egy irodalmi alapú katalógus közötti megfelelést . Ezt az egységes katalógust négy független tanulmány integrálásából állítottuk össze, amely 1144 génre terjed ki a ChrX-ből. Az ebben a katalógusban szereplő géneket kézzel kilenc meghatározott kategóriába soroltuk (lásd a Módszerek című részt). A legnagyobb az információhiányos géneket tartalmazza (45%) . A gének mintegy 15%-át (168/1144) tekintik “menekülő-asszociáltnak” (lásd Módszerek). Az “escapee-associated” gének összeállított készletét tekintjük arany standardnak a vizsgálatunkban az escapee felfedezési arányának teszteléséhez (összesen 124 gén, kivéve a PAR géneket, együttesen Balaton-Esc).

Hipergeometriai statisztikai tesztet alkalmaztunk (lásd Módszerek) a különböző escapee génlisták átfedésének értékelésére (5. ábra). Az 5a. ábra a fibroblasztok és a limfoblasztok (a PAR-gének kizárásával) azonosított menekülő gének számát mutatja. Megjegyezzük, hogy csak a Balaton-Esc benchmarkban szereplő gének szerepelnek ebben az elemzésben (5. ábra). Az 5b. ábra az 5a. ábrán szereplő génlisták és a Balaton-Esc közötti átfedés statisztikai szignifikanciáját mutatja. Amint látható, szignifikáns átfedés van a lymphoblastokból (2. táblázat és Additional file 4: S3 táblázat) és a Balaton-Esc lista között (5b. ábra, p-érték = 7,43E-8). Ugyanezt a tesztet alkalmazva a primer fibroblasztokra (1. táblázat) alacsonyabb szignifikanciát eredményezett (p-érték = 4,07E-2).

5. ábra

Az azonosított menekülők és a Balaton et al. által összeállított irodalmi alapú katalógussal való átfedés statisztikai szignifikanciája . a Az egyes elemzések által azonosított menekülők száma. A számok csak a Balaton et al. által bemutatott génekre vonatkoznak, és nem tartalmazzák a PAR géneket. b A Balaton et al. által bemutatott irodalomalapú lista és az ebben a vizsgálatban (mint az a) pontban) kijelölt szökevények közötti átfedést mérő hipergeometriai eloszláson alapuló statisztikai elemzés. Az Y-tengely a számított p-érték -log10(x) értéke. c Venn-diagram az elemzett fibroblasztok és limfoblasztok, a Balaton-Esc gyűjtemény , valamint a Tukiainen-Esc szerinti 4 menekülő csoportról. Beleértve a PAR-t is. A részleteket lásd a szövegben. Forrásadatok a 6. kiegészítő fájlban: Table S5

Az 5c. ábra a vizsgálatunkban azonosított escape gének és a Balaton-Esc katalógus (168 gén, beleértve a PAR géneket is) közötti átfedéseket ábrázolja . Egy kiegészítő forrást is felvettünk, amely 940 scRNS-Seq-ből származó transzkriptómán alapul (25 menekülő gén, Tukiainen-Esc) . A Venn-diagram azt mutatja, hogy a fenti tanulmányok mindegyike hozzájárul a menekülőkre vonatkozó jelenlegi ismeretekhez. A két külső forrásból származó menekülő gének a 25 bejelentett génből 18-ban (72%) átfedik egymást. Amint az 5c. ábrán látható, a lymphoblastokból jelentett escapeek 62%-a átfedésben van a külső escapee-listákkal, míg a fibroblasztok esetében csak 38%-os átfedés támasztja alá. Figyelemre méltó, hogy a fibroblasztokból felfedezett escapee-jelölt génjeink többségének (62%) nincs megfelelése a többi vizsgált listával (Additional file 6: Table S5).

LncRNS-ek bővítik az escapee-jelöltek listáját

Elemzésünket kiterjesztettük a hosszú nem kódoló RNS-ekre (lncRNS-ek), ugyanazokat az escapee-kritériumokat alkalmazva, mint amelyeket a kódoló génekből használtunk (6. ábra). Összesen 15 lncRNS-t azonosítottunk menekülő jelöltként, közülük csak néhányat vizsgáltunk korábban. Az lncRNS-ek és a kódoló menekülők elhelyezkedése a ChrX mentén látható (6a. ábra). A ChrX mentén az összes ChrX génhez viszonyítva vizsgáltuk a menekülők pozícióját. Míg az lncRNS-szökések pozícióeloszlása hasonló (Kolmogorov-Smirnov-teszt, p-érték = 0,57), addig a kódoló szökések esetében eltérő (Kolmogorov-Smirnov-teszt, p-érték = 0,004, 6a. ábra).

6. ábra

LncRNS-ek, amelyeket szökevényeknek rendeltek, és a szökevények csoportjai a megbízhatósági szintjük szerint. a A szökevények eloszlása a ChrX mentén. Az lncRNS-ekhez és a kódoló génekhez tartozó szökevények a ChrX vázlatrajza felett, illetve alatt vannak feltüntetve. b A 15 lncRNS-szökevényjelöltet felsoroló táblázat. A narancssárga színnel jelzett escapee és a szürke inaktivált. Az egyetlen iSNP-n alapuló hozzárendelést világos narancssárgával jelöltük. A fehér a jelentés hiányát vagy a kifejeződés hiányát jelzi. XIC, X inaktivációs központ régió. c Az ebben a tanulmányban escapee-jelöltként említett 75 gén felosztása. A kategóriákat a “megerősített”, “jóváhagyott”, “valószínű” és “lehetséges” kategóriákkal jelöltük (lásd a szöveget). A csoportok meghatározásához használt két külső forrás a szakirodalomból és az egysejtűek által . A “valószínűsíthető” szökevény csoport esetében bizonyítékként a szökevény annotációját használtuk. Megjegyezzük, hogy a 15 felsorolt lncRNS-génből 11 szerepel a “lehetséges” szökevények csoportjában. d A 75 gén bizonyítékon alapuló csoportjainak összefoglalása. A gének a 4 evidenciacsoport szerint vannak rendezve (mint a c-ben) A menekülők narancssárga színnel vannak jelölve. A világos narancssárga jelzi azokat a menekülőket, amelyeket egyetlen, csak egyetlen sejtből származó bizonyíték támaszt alá fibroblasztokban. Az inaktivált gének szürke színűek. A fehér szín azt jelzi, hogy nincs expresszió vagy nincs jelentés. A sejtek bizonyítékai színkódolással jelzik az egy (világoskék) vagy több sejt (sötétkék) általi támogatást. Azok az esetek, ahol a bizonyítékok csak a Pool100-on alapulnak, szintén világoskékkel vannak jelölve. A PAR gének és az lncRNS-ek jelölve vannak. A forrásadatok a 6. kiegészítő fájlban találhatók: Table S5

A 6b. ábra mind a 15 azonosított lncRNS menekülő gént felsorolja, köztük olyan ncRNS-géneket az XIC-ből, amelyek az X-inaktiváció aktiválását és fenntartását koordinálják. Az lncRNS-ek közül sokan transzkripcionálisan aktív szegmensekben lokalizálódnak (pl. a PAR-on vagy a XIC-en belül), míg mások nem konzervált régiókban lokalizálódnak, amelyek hosszú és rövid ncRNS-ekkel gazdagodnak. További lncRNS-eket, beleértve az inaktivált géneket is, lásd a 7. kiegészítő fájl: S6. táblázat.

Evidence-based partition of escapee genes

A 6c. ábra összefoglalja a bizonyítékok szerinti felosztást minden olyan génre, amelyet bármilyen szintű megbízhatósággal jelentettek escape-ként (Additional file 6: S5. táblázat). Ez a lista 75 jelöltet tartalmaz, amelyekről ebben a tanulmányban számoltak be, beleértve a Pool100-ból, az új lncRNS-ek gyűjteményéből származó bizonyítékokat is. A 6d. ábra részletesen felsorolja az ezen adatokból származó megállapításokat a serval külső források tekintetében. A bizonyítékot szolgáltató sejtek száma is fel van tüntetve minden gén esetében.

Ezeket a külső forrásokat figyelembe véve minden egyes gént a hozzá kapcsolódó független támogatás minősége szerint párosítottunk (6c. és d. ábra). Konkrétan a 75 gén listáját négy csoportra osztottuk: (i) A géneket akkor jelöltük “megerősítettnek”, ha mindkét korábban tárgyalt külső forrás menekültként jelentette őket . 31 ilyen gén van, amelyek esetében ez a tanulmány további megerősítést nyújt a menekülő génként való azonosságukról. (ii) További 7 gént jelölünk “jóváhagyottnak”. Ezeket a géneket a két külső forrás közül csak az egyik jelöli szökevényként . E gének esetében az e tanulmányból származó független bizonyítékok jóváhagyják azonosságukat. (iii) További 12 gén “valószínűsíthető” menekülő génként van jelölve. Ezeket a géneket egy további külső jelentéssel való egyetértés alapján jelöltük ki, amely 114 menekülő génről számol be , és amely nem szerepelt az irodalomalapú katalógusban , és így független forrásnak tekinthető. (iv) További 25 gén “lehetséges” menekülőként van jelölve. Ezeknél a géneknél nincs olyan irodalmi bizonyíték, amely alátámasztaná az azonosságukat, így a szökevényként való besorolásuk kevésbé támogatott. Közülük 5 gén csak a lymphoblastból származó kiugró sejtből van alátámasztva, és így valószínűleg hamis. Ebben a halmazban további 10 olyan gén van, amelyet a három tárgyalt külső forrás egyike sem jelentett , A figyelmen kívül hagyott lncRNS-ek többsége ebbe a csoportba tartozik. E figyelmen kívül hagyott menekülő lncRNS-ek közül kettő (TCONS_00017125 és TCONS_00017281, 6b. ábra) a PAR régióban található, amely kivételesen aktív a biallelikus transzkripcióban. A 6d. ábra forrásadatai a 6. kiegészítő fájlban találhatók: S5. táblázat.

admin

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.

lg