Rámec pro měření úniku z X-inaktivace v jednotlivých buňkách

Úniky identifikujeme analýzou exprese genů ze somatických jednotlivých buněk pomocí metodiky scRNA-Seq (viz Metody). Abychom zhodnotili citlivost metody, porovnáváme expresi chromozomu X (ChrX) s expresí ostatních autozomálních chromozomů. Konkrétně jsme se zaměřili na genově bohatý chromozom 17 (Chr17) jako prototyp autozomálního chromozomu. Chr17 byl vybrán, protože představuje chromozom s minimálním počtem imprintovaných genů specifických pro rodiče . Kvantitativní vlastnosti ChrX a Chr17 jsou uvedeny na obr. 1a.

Obr. 1

Pracovní postup pro identifikaci uniklých genů z jednotlivých buněk. a Kvantitativní vlastnosti ChrX a Chr17 jsou uvedeny podle GRCh37 (GRC Human Build 37). b Schéma pro analýzu jednotlivých buněk primárních fibroblastů. Dvě barvy pro jádra představují náhodný výběr Xa. V kontextu fibroblastů vykazuje každý Xa jiný vzorec exprese pro hSNP. Každý z iSNP lze přiřadit k referenční (R) nebo alternativní alele (A). Jestliže jedna buňka s jedním Xa bude mít vzorec exprese A R A, buňka s alternativním Xa bude exprimovat R A R. Vzhledem k náhodné inaktivaci X a k tomu, že hSNP nejsou rozfázované, je anotace genu jako únikového zcela založena na tom, že má více důkazů iSNP s bialelickou expresí. Ilustrační tabulka ukazuje analýzu iSNP z každého z hSNP (vlevo) v každé z buněk jako A nebo R a anotaci genu podle kumulace důkazů iSNP. Na obrázku jsou vyznačeny hSNPs pocházející ze 4 jednotlivých buněk (buňka-1 až buňka-4). Tyto hSNP jsou spojeny se 3 geny (označené jako gen a až gen c). Gen a je jediný gen s více bialelickými iSNP, proto je anotován jako Escapee gen (Esc). Ostatní dva geny buď nemají bialelické iSNP (gen b), nebo mají pouze jeden iSNP jako důkaz bialelické exprese (gen c), a proto jsou anotovány jako Inactivated gene (Ina). c Schéma pro klonální lymfoblasty z jednotlivých buněk. Na rozdíl od primárních fibroblastů (b) je rodičovský původ Xa u všech buněk identický. V tomto případě buněčné linie GM12878 je Xa spojen s mateřskou (M) alelou (symbolizovanou růžově zbarvenými jádry). V případě lymfoblastů postačuje výskyt otcovské alely (označené jako P) k identifikaci iSNP, která je exprimována z Xi, a může tak být potenciálně anotována jako úniková. V tabulce vpravo je zdůrazněno přiřazení escapee k lymfoblastům. Kategorie v tabulce jsou stejné jako v bodě b). Podrobnosti o pracovním postupu a použitých protokolech viz Doplňkový soubor 1: Text a obrázek S1

Tato studie je založena na analýze dvou zdrojů ženského původu: (i) Primární fibroblasty UCF1014 (se 104 buňkami, viz Metodika). Tento soubor je specifikován transkriptomickými daty s vyšším pokrytím, ale postrádá informace o fázování haplotypů (obr. 1b); (ii) menší soubor dat klonálních lymfoblastů (n = 25) z buněčné linie GM12878 s plně fázovanými a sekvenovanými rodičovskými diploidními genomy (obr. 1c). V obou souborech dat je zdrojem informací pro určení monoalelické nebo bialelické exprese transkripce u heterozygotních SNP (hSNP). Každý hSNP v každé buňce, který je podpořen důkazem exprese nad předem stanovenou prahovou hodnotou, je považován za informativní SNP (iSNP) (viz Metody, Další soubor 1: Text). Součet iSNP pro jeden gen definuje jeho jedinečné označení jako inaktivovaný nebo uniklý gen (viz Metody, obr. 1b-c, Additional file 1: Text).

Kvantifikace bialelické exprese z jednobuněčných primárních fibroblastů

Analyzovali jsme publikovaná data scRNA-Seq z ženských primárních lidských fibroblastů . Před analýzou jsme se postarali o experimentální úskalí, které se týká mnoha jednobuněčných studií. Toto úskalí se týká dvojic buněk, u nichž je v jedné knihovně sekvenováno více než jedna buňka. V takovém scénáři budou různé aktivní chromozomy X (Xa) ze dvou různých buněk, které jsou zahrnuty do vzorku, vytvářet bialelický signál podél celého chromozomu X . I když se očekává, že podíl dubletů bude malý, může to vést k nesprávné interpretaci . Proto jsme před analýzou dat z fibroblastů znovu prošli všech 104 fibroblastů a otestovali jejich bialelický poměr vzhledem k ChrX (viz Metody). Tři buňky vykazovaly výjimečně vysoký stupeň bialelické exprese, který by mohl naznačovat směs dvou rodičovských chromozomů X (doplňkový soubor 1: text a obrázek S3). Všechny tři podezřelé buňky jsme ze všech analýz odstranili.

Poté jsme pro každou jednotlivou buňku spočítali počet čtení, která byla jednoznačně mapována na alely hSNP. Alelický poměr (AR) pro každý iSNP je definován jako podíl čtení mapovaných na alternativní alelu (Alt) z celkového počtu čtení (viz Metody, Doplňkový soubor 2: Tabulka S1). Obrázek 2a-c shrnuje AR pro ChrX, Chr17 a celé autozomální chromozomy podle souboru primárních fibroblastů (101 ze 104 buněk). Obr. 2d navíc ukazuje rozložení AR anotovaného souboru imprintovaných genů z kožních tkání (podle ). Jak již bylo dříve uvedeno , je patrné zkreslení mapování směrem k referenčnímu genomu (AR = 0) (obr. 2a-d). Kromě toho byla u všech testovaných souborů pozorována značná část monoalelické exprese (obr. 2a-d). Tento dominantní výskyt monoalelické exprese v jednotlivých buňkách je způsoben kombinací jak nedostatečného vzorkování transkriptů, tak jevu, který je znám jako „transkripční praskání“ .

Obr. 2

Rozložení alelického poměru (AR) pro každý SNP jako podíl přiřazení pro alternativní (Alt) z Alt a referenční (Ref) alely. Osa X v horních histogramech se pohybuje od 0 do 1,0, kde 0 označuje, že všechna přiřazení jsou spojena s alelou Ref, a 1 označuje všechna přiřazení pro alelu Alt. Protože většina iSNP je přiřazena s hodnotami AR 0 nebo 1, je každá analýza znázorněna dvěma histogramy. Spodní histogram se zaměřuje na nemonoalelické iSNP a zahrnuje všechny hodnoty AR s výjimkou AR = 0 a AR = 1. Je zobrazeno procento iSNP, které jsou zahrnuty v dolních histogramech. Rozložení AR je znázorněno pro Chr17 (a), autozomální chromozomy (b), ChrX (c) a imprintované geny (d). Zdrojová data viz Doplňkový soubor 3: Tabulka S2

Zaměřili jsme se pouze na iSNP, které vykazují nemonoalelický podpis (tj. s vyloučením AR = 0 a AR = 1). Pozorovali jsme výrazný rozdíl v distribuci AR u ChrX a imprintovaných genů ve srovnání s Chr17 a všemi autozomálními chromozomy (srovnej obr. 2a až b a obr. 2c až d). V souladu s tím lze z výsledků uvedených na obr. 2 vyvodit několik pozorování: (i) Chr17 a všechny autosomy mají podobný profil AR. (ii) Jasná tendence k vyvážené expresi (AR = 0,5) je patrná u všech autozomálních chromozomů (obr. 2a-b), nikoli však u ChrX nebo imprintovaných genů (obr. 2c-d). (iii) Podíl nemonoalelické exprese u autozomálních chromozomů je vyšší (~ 18 %) ve srovnání s ChrX (~ 9 %). (iv) Podíl nemonoalelické exprese u imprintovaných genů vykazuje střední úroveň (13 %). Taková střední úroveň je pravděpodobně odrazem inherentní nekonzistence v identitě imprintovaných genů . Doplňkový soubor 3: Tabulka S2 uvádí podpůrné iSNP pro všechny analyzované chromozomy ve fibroblastech včetně souboru imprintovaných genů.

Identifikace únikových genů v jednobuněčných primárních fibroblastech

V souboru dat primárních fibroblastů je 232 a 485 genů, které jsou podpořeny důkazy iSNP pro ChrX a Chr17. Jelikož u těchto buněk chybí informace o fázování genomu (obr. 1b), informace o úniku z chromozomu X se omezují na soubor bialelických iSNP (viz obr. 1b). Agregovali jsme iSNP podle příslušných genů (obr. 1b). Agregace se provádí napříč různými jednotlivými buňkami a napříč více iSNP v rámci konkrétního páru buňka-gén. Gen bude označen jako escapee candidate, pokud je spojen s více bialelickými iSNP. Celkem jsme identifikovali 24 takových genů (tabulka 1), které představují 10,3 % všech exprimovaných genů v ChrX. Podle očekávání je podíl genů na Chr17 vykazujících bialelickou expresi podstatně vyšší (49,3 %, Additional file 4: Table S3).

Tabulka 1 Escapees ze 101 primárních jednobuněčných fibroblastů. Úplný seznam všech genů je k dispozici v Additional file 3: Table S4

Tabulka 1 uvádí kandidáty na escapee s různým stupněm podpory. Například geny ZFX (Zinc finger X-chromosomal protein) a SMC1A (Structural maintenance of chromosomes protein 1A) mají silnou podporu 103, resp. 19 bialelických iSNP. Další zvýšení spolehlivosti identifikace úniků je založeno na tom, že existují alespoň 2 nezávislé buňky, které přispěly informací o bialelické expresi. Ukázali jsme, že toto přísné kritérium splnilo 21 z 24 genů (tabulka 1). Pozoruhodné je, že mezi identifikovanými escapees jsme zjistili pouze tři geny PAR (SLC25A6, CD99 a DHRSX, tabulka 1). Zařazení těchto genů mezi escapees souhlasí s očekávanou expresí PAR. Z počtu bialelických PAR genů z exprimovaných PAR genů jsme odhadli míru falešně negativního nálezu únikových genů až na 70 % (tj. chybělo 7 z 10 exprimovaných PAR genů). Doplňkový soubor 4: Tabulka S3 uvádí podporu pro tabulku 1.

Kvantifikace alelické exprese z klonálně fázovaných lymfoblastů

Hlavní omezení výše popsaného protokolu se týká absence fázování rodičovských haplotypů. Při tomto nastavení nelze iSNP přiřadit k Xa nebo Xi. V důsledku toho náhodný výběr Xi, který charakterizuje primární buňky, omezuje míru objevení úniků. Rozšířili jsme analýzu scRNA-Seq na lymfoblasty ženského původu z klonální buněčné linie GM12878 . Viz obr. 1c a doplňkový soubor 1:

Obrázek 3a ukazuje expresní profil pro jednotlivé buňky klonálního lymfoblastu (n = 25) (doplňkový soubor 2: tabulka S1, doplňkový soubor 5: tabulka S4). V každé jednotlivé buňce odráží monoalelická exprese kombinaci nedostatečného výběru transkriptů a jevu transkripčního prasknutí . Je zřejmé, že mateřská exprese z Xa dominuje (obr. 3a, nahoře). Toto pozorování souhlasí s uváděným mateřským původem Xa buněčné linie GM12878 . Ve většině analyzovaných buněk pochází malá, ale podstatná část naměřené celkové exprese z paternálního chromozomu Xi (obr. 3a, nahoře). Naproti tomu Chr17 a autozomální chromozomy vykazují stejnou expresi z obou alel (obr. 3a, prostřední a dolní panel).

Obr. 3a, střední panel). 3

Kvantifikace značek iSNP z 25 jednobuněčných lymfoblastů. a Každá jednotlivá buňka je rozdělena podle značených alelických iSNP na ChrX, Chr17 a všech autozomálních chromozomech. Jednotlivé iSNP jsou spojeny s mateřskou (růžová), otcovskou (světle modrá) a vyváženou expresí (šedá). Buňky jsou seřazeny zleva doprava podle příspěvku iSNP (Additional file 1: Figure S4). Vpravo je zobrazena souhrnná statistika Pool100. b Přehled rozdělení značek iSNPs pro všech 25 jednotlivých buněk na ChrX, Chr17 a autozomálních chromozomech. c Přehled rozdělení značek iSNPs pro Pool100. Modrá a růžová barva jsou spojeny s otcovskými, respektive mateřskými alelami. Pruhovaný vzor označuje bialelické iSNP přiklánějící se k otcovským (modrá) nebo mateřským (růžová) alelám. U jednotlivých buněk jsou údaje založeny na 375 iSNP pro ChrX, 808 iSNP pro Chr17 a 20 212 iSNP pro autozomální chromozomy. Údaje Pool100 vycházejí z 211 iSNPs pro ChrX, 216 pro Chr17 a 5360 iSNPs pro autozomální chromozomy. Zdrojová data viz Doplňkový soubor 5: Tabulka S4

Z obrázku je patrné, že fenomén transkripční exploze postihuje všechny chromozomy včetně ChrX. Pro posouzení vlivu tohoto jevu na identifikaci genů jako únikových jsme porovnávali jednotlivé buňky s ohledem na pool buněk (Pool100, obr. 3a, pravý sloupec). Zatímco většina iSNP z Chr17 vykazuje bialelické profily, u ChrX nadále převládá mateřská monoalelická exprese.

Obrázek 3b představuje souhrnný pohled na ChrX, Chr17 a autozomální chromozomy. Údaje vycházejí z 375, 808 a 20 212 exprimovaných hSNP. Obrázek 3b (prostřední a pravý panel) ukazuje rovnoměrné rozdělení rodičovských alel z Chr17 a autozomálních chromozomů (obr. 3b, nahoře). Provedení stejné analýzy na datech získaných z Pool100 (obr. 3c) ukazuje, že rozdělení rodičovských alel zůstává prakticky nezměněno (porovnejte podíl obsazený růžovou a modrou barvou, obr. 3b-c). Navíc jsme pozorovali posun od monoalelického (obr. 3b-c, vyplněná barva) k bialelickému projevu (obr. 3b-c, pruhovaná barva). Podíl bialelické exprese pro Ch17 se zvýšil z 19 % u jednotlivých buněk na 80 % u Pool100 a pro autozomální chromozomy z 18 % na 79 % (obr. 3c, prostřední a pravý panel). Výsledky z Pool100 ukazují, že monoalelická exprese pozorovaná v jednotlivých buňkách je prakticky zrušena zprůměrováním signálu.

Výsledky z ChrX (obr. 3b (vlevo) jsou zásadně odlišné oproti Chr17 nebo autozomálním chromozomům (obr. 3b-c). Nejvýraznějším rozdílem je, že pouze 21 % exprimovaných iSNP je spojeno s otcovskou alelou Xi v ChrX (obr. 3b, nahoře). Navíc při analýze Pool100 zůstává podíl bialelické exprese ohraničený (posun z 9 % v jednotlivých buňkách na 34 % v Pool100). Pozorovaný vzorec ChrX z Pool100 (obr. 3c, vlevo) lze nejlépe vysvětlit zprůměrováním stochastického monoalelického signálu (ve stejné míře jako u ostatních chromozomů) při zachování silného signálu monoalelické exprese Xa. Poměr alel všech testovaných chromozomů a Pool100 viz Doplňkový soubor 5: Tabulka S4.

Identifikace úniků z jednobuněčných lymfoblastů

Obrázek 4a je genocentrický pohled, který ukazuje rozdělení alel iSNP z lymfoblastů (barevně vyznačeno podle jejich původu jako mateřská, otcovská nebo smíšená exprese, viz Metody). Pouze podskupina genů, které jsou podporovány více iSNP, je uvedena podle jejich uspořádání podél chromozomů. Celkem uvádíme 93 anotovaných genů na ChrX (obr. 4a, 30 uniklých a 63 inaktivovaných genů). Všimněte si, že X-inaktivované geny představují geny, které jsou exprimovány především z mateřského Xa. Shluk genů s paternální expresí na konci p-ramene ChrX představuje očekávanou bialelickou expresi z genů PAR (obr. 4a). Další důkaz paternální exprese je lokalizován do XIC u genů jako XIST, JPX a FTX. Zatímco většina únikových genů je podporována omezeným počtem iSNP, několik z nich, jako například ZFX, CD99 a SLC25A6, je podporováno poměrně velkým počtem podpůrných iSNP (48, 38 a 34).

Obr. 4

Rozdělení alel z buněk lymfoblastu podle genů. a Pro každý gen na ChrX je uvedeno rodičovské rozdělení iSNPs spolu s počtem iSNPs. Pro přehlednost jsou uvedeny pouze geny, které jsou podporovány > = 2 iSNPS. Celkem 93 genů na ChrX je uvedeno podle jejich pořadí na chromozomu. Barevný kód je podle označení iSNP jako paternální, maternální a vyvážená exprese. Zdrojová data viz Doplňkový soubor 5: Tabulka S4. b-c Korelace mezi hladinami exprese z paternální a maternální alely. Rozptylové grafy ukazují úrovně exprese genů podle počtu čtení spojených s mateřskými (osa x) a otcovskými (osa y) alelami. U každého rozptylového grafu je uveden počet analyzovaných genů (na ose x v závorce). Zobrazená data jsou z Chr17 (b) a ChrX (c) na základě jednotlivých buněk a Pool100. Všimněte si, že počet čtení pro data Pool100 je 10krát menší vzhledem ke kumulativním datům získaným z jednotlivých buněk. Zdrojová data viz Doplňkový soubor 4: Tabulka S3

Alternativní metodou pro posouzení rozsahu jevu inaktivace X je kvantifikace důkazů přímo ze součtu všech sekvenovaných čtení (zkráceně protokol založený na čtení). Obrázky 4b-c porovnávají počty čtení z Chr17 (obr. 4b) a ChrX (obr. 4c) podle otcovského a mateřského původu. Porovnáváme expresní data z jednotlivých buněk a Pool100. Lineární regrese pro expresi genů z Chr17 vykazuje vysokou korelační fit-line (r2 = 0,823, obr. 4b). Podle očekávání je korelace silnější u dat pocházejících z Pool100 (r2 = 0,946, obr. 4b). Došli jsme k závěru, že navzdory monoalelické expresi v důsledku fenoménu transkripčního burstingu je silně podporována vyvážená alelická exprese všech genů. Pro ChrX je však výsledná lineární regrese jednotlivých buněk slabá (r2 = 0,238, obr. 4c) a nezlepšila ji ani data z Pool100 (r2 = 0,222, obr. 4d). Kontrola dat exprese pro ChrX ukazuje, že regresní přímky se ve skutečnosti sklánějí k mateřské expresi Xa (osa x). Expresní data odpovídají dvěma odlišným regresním přímkám pro ChrX. Jedna, která odpovídá inaktivovaným genům (rovnoběžná s osou x), a druhá odpovídá důvěryhodně bialelické expresi.

Použití konzervativního protokolu založeného na iSNP vede k identifikaci 30 genů jako kandidátů na únik, které jsou rovněž podporovány protokolem založeným na čtení (tabulka 2). Protokol založený na čtení (tj, označení genu jako escapee na základě minimálního počtu otcovských čtení, viz Metody) protokol rozšířil seznam kandidátů na escapee na celkových 49 genů (Additional file 4: Table S3).

Tabulka 2 Escapees z 25 klonálních jednobuněčných lymfoblastů

Testování rodičovského původu alel podél genu ve stejné buňce je přísným testem spolehlivosti iSNP. Tento test je platný pouze pro geny s více hSNP. Takové geny, které jsou podporovány dvěma nebo více expresními hSNP, představují 44 % genů. Gen považujeme za konzistentní, pokud exprese podél genu v konkrétní buňce není monoalelická pro obě alely. Celkem jsme identifikovali 3 nekonzistentní geny – TEX11, FTX a ZCCHC16. U dalších 6 genů je nekonzistence pouze částečná, protože existují další pozorování bialelické exprese. Odhad z úplné nekonzistence (3 z 29 genů, které byly způsobilé pro tento test) naznačuje, že horní hranice chybné interpretace je 10 %. Protokol založený na iSNP navíc identifikoval 9 z 11 exprimovaných genů PAR. Extrapolujeme tedy míru detekce uniklých genů na 82 %. Zajímavé je, že analýza Chr17 za předpokladu, že nedochází k systematickému alelickému zkreslení , ukázala, že 7,3 % genů bylo spojeno s mateřskou a 9,6 % s otcovskou monoalelickou expresí. Tyto výsledky poskytují horní hranici 17,9 % pravděpodobnosti falešného označení genu v Chr17 a mohou být použity pro odhad omezení metody.

Požadavek na paternální důkaz z alespoň dvou buněk snižuje počet uniklých genů ze 49 na 18 (včetně 5 PAR genů). Mnoho genů s jedinou evidencí vyplývajících ze specifické odlehlé buňky (SRR764803), která přispěla k 17 ze 49 uváděných genů (tabulka 2, doplňkový soubor 5: tabulka S4). Tato buňka vykazuje nejvyšší úrovně exprese na ChrX i Chr17 (doplňkový soubor 1: Text a obrázek S4). V tabulce 2 jsou uvedeni objevení kandidáti na únik spolu s jejich podpůrnými důkazy (tabulka 2).

Srovnání identifikovaných úniků se současnými znalostmi

Testovali jsme shodu mezi identifikovanými úniky z naší studie a katalogem založeným na literatuře . Tento jednotný katalog byl sestaven na základě integrace čtyř nezávislých studií, které zahrnují 1144 genů z ChrX. Geny v tomto katalogu jsou ručně rozděleny do devíti definovaných kategorií (viz Metody). Největší z nich představuje geny, o kterých chybí informace (45 %) . Přibližně 15 % genů (168/1144) je považováno za geny „spojené s únikem“ (viz Metody). Sestavený soubor genů „spojených s únikem“ považujeme za zlatý standard pro testování míry objevení úniku v naší studii (celkem 124 genů, vyloučené PAR geny, souhrnně nazývané Balaton-Esc).

Pro posouzení překrývání různých seznamů genů spojených s únikem jsme použili hypergeometrický statistický test (viz Metody) (obr. 5). Obrázek 5a ukazuje počet identifikovaných escape genů z fibroblastů a lymfoblastů (s vyloučením genů PAR). Všimněte si, že do této analýzy jsou zahrnuty pouze geny, které jsou zahrnuty ve srovnávacím testu Balaton-Esc (obr. 5). Obr. 5b ukazuje statistickou významnost překryvu mezi seznamy genů z obr. 5a a Balaton-Esc . Jak je vidět, dochází k významnému překryvu mezi úniky z lymfoblastů (tabulka 2 a doplňkový soubor 4: tabulka S3) a seznamem Balaton-Esc (obr. 5b, p-hodnota = 7,43E-8). Použití stejného testu pro primární fibroblasty (tab. 1) vedlo k nižší významnosti (p-hodnota = 4,07E-2).

Obr. 5

Identifikované úniky a statistická významnost překryvu s literárním katalogem sestaveným Balatonem et al. . a Počty úniků identifikovaných jednotlivými analýzami. Počty zahrnují pouze geny, které byly přítomny v Balaton et al. a nezahrnují geny PAR. b Statistická analýza založená na hypergeometrickém rozdělení měřícím překryv mezi seznamem založeným na literatuře, jak jej předložili Balaton et al. a úniky přiřazenými v této studii (jako v (a)). Na ose Y je -log10(x) vypočtené p-hodnoty. c Vennův diagram 4 souborů úniků podle analyzovaných fibroblastů a lymfoblastů, souboru Balaton-Esc , a Tukiainen-Esc . Včetně PAR. Podrobnosti viz text. Zdrojová data v Doplňkovém souboru 6: Tabulka S5

Obrázek 5c znázorňuje překrývající se geny mezi escapees identifikovanými v naší studii a katalogem Balaton-Esc (168 genů včetně genů PAR) . Zařadili jsme také doplňkový zdroj založený na 940 transkriptomech ze scRNA-Seq (25 genů úniků, Tukiainen-Esc) . Vennův diagram ukazuje, že každá z výše uvedených studií přispívá k současným znalostem o útěkářích. Únikové geny z obou externích zdrojů se překrývají 18 z 25 uváděných genů (72 %). Jak ukazuje obr. 5c, 62 % escapeů hlášených z lymfoblastů se překrývá se seznamy externích escapeů, zatímco fibroblasty jsou podpořeny pouze 38% překryvem. Pozoruhodné je, že většina námi objevených kandidátních escape genů z fibroblastů (62 %) se neshoduje s ostatními testovanými seznamy (Additional file 6: Table S5).

LncRNA rozšiřují seznam kandidátních escape genů

Rozšířili jsme naši analýzu na dlouhé nekódující RNA (lncRNA) pomocí stejných kritérií pro escape geny, jaká jsme použili z kódujících genů (obr. 6). Celkem jsme identifikovali 15 lncRNA jako kandidáty na únik, z nichž pouze několik bylo již dříve studováno. Umístění lncRNA a kódujících uniklých genů podél ChrX je znázorněno (obr. 6a). Testovali jsme polohu escapees podél ChrX vzhledem ke všem genům ChrX. Zatímco rozložení pozic pro úniky lncRNA je podobné (Kolmogorov-Smirnovův test, p-hodnota = 0,57), u kódujících úniků se liší (Kolmogorov-Smirnovův test, p-hodnota = 0,004, obr. 6a).

Obr. 6

LncRNA přiřazené jako escapees a skupiny escapees podle úrovně jejich spolehlivosti. a Rozptyl escapees podél ChrX. Úniky patřící k lncRNA a ke kódujícím genům jsou vyznačeny nad, resp. pod schématy ChrX. b Tabulka se seznamem 15 kandidátů na úniky lncRNA. Oranžovou barvou jsou označeny escapee a šedou inaktivované. Přiřazení, které je založeno na jediném iSNP, je označeno světle oranžovou barvou. Bílá barva označuje chybějící hlášení nebo žádnou expresi. XIC, oblast centra inaktivace X. c Rozdělení 75 genů, které byly v této studii uvedeny jako kandidáti na escapee. Kategorie jsou označeny jako „potvrzené“, „schválené“, „pravděpodobné“ a „možné (viz text). Dva externí zdroje, které jsou použity k vymezení skupin, pocházejí z literatury a z jedné buňky podle . Pro skupinu „pravděpodobných“ úniků jsme jako důkaz použili anotaci úniku z. Všimněte si, že 11 z 15 uvedených genů lncRNA je zahrnuto do skupiny „možných“ escapee. d Shrnutí skupin založených na důkazech pro 75 genů. Geny jsou seřazeny podle 4 skupin důkazů (stejně jako v bodě c) Uniklé geny jsou podbarveny oranžově. Světle oranžová barva označuje escapees, které jsou podpořeny jediným důkazem pouze z jedné buňky ve fibroblastech. Neaktivované geny jsou zbarveny šedě. Bílá barva označuje žádnou expresi nebo chybějící zprávu. Důkazy z buněk jsou barevně označeny a ukazují podporu z jedné (světle modrá) nebo více buněk (tmavě modrá). Případy, kdy jsou důkazy založeny pouze na Pool100 , jsou rovněž označeny světle modře. Označeny jsou geny PAR a lncRNA. Zdrojová data jsou v Doplňkovém souboru 6: Tabulka S5

Na obrázku 6b je uvedeno všech 15 identifikovaných lncRNA uniklých genů, mezi nimiž jsou ncRNA geny z XIC, které koordinují aktivaci a udržování X-inaktivace. Mnohé z lncRNA jsou lokalizovány v transkripčně aktivních segmentech (např. v rámci PAR nebo XIC), zatímco jiné jsou lokalizovány v nekonzervovaných oblastech, které jsou obohaceny o dlouhé a krátké ncRNA. Další lncRNA, včetně inaktivovaných genů, viz Doplňkový soubor 7: Tabulka S6.

Rozdělení uniklých genů podle důkazů

Obrázek 6c shrnuje rozdělení podle důkazů pro všechny geny, které jsou s jakoukoli úrovní spolehlivosti uváděny jako uniklé (Doplňkový soubor 6: Tabulka S5). Tento seznam zahrnuje 75 kandidátů, kteří jsou uváděni v této studii, včetně důkazů z Pool100, sbírky nových lncRNA. Obrázek 6d uvádí podrobný seznam nálezů z těchto dat s ohledem na servalové externí zdroje. U každého genu je také uveden počet buněk poskytujících důkazy.

S ohledem na tyto externí zdroje jsme každý gen přiřadili podle kvality nezávislé podpory s ním spojené (obr. 6c a d). Konkrétně jsme rozdělili seznam 75 genů do čtyř skupin: (i) Geny jsou označeny jako „potvrzené“, pokud jsou hlášeny jako uniklé oběma dříve diskutovanými externími zdroji . Takových genů, u nichž tato studie poskytuje další potvrzení jejich identity jako escapees, je 31. (ii) Dalších 7 genů je označeno jako „schválené“. Tyto geny jsou označeny jako escapees pouze jedním ze dvou externích zdrojů . U těchto genů nezávislá evidence z této studie potvrzuje jejich identitu. (iii) Dalších 12 genů je označeno jako „pravděpodobné“ escapees. Tyto geny jsou přiřazeny podle shody s další externí zprávou uvádějící 114 escapees , která nebyla zahrnuta do katalogu založeného na literatuře , a lze ji tedy považovat za nezávislý zdroj. (iv) Dalších 25 genů je označeno jako „možné“ úniky. Těmto genům chybí jakýkoli literární důkaz na podporu jejich identity, a proto jejich přiřazení k escapees zůstává méně podložené. Mezi nimi je 5 genů podpořeno pouze z odlehlé buňky z lymfoblastu, a jsou tedy pravděpodobně falešné. V tomto souboru je dalších 10 genů, které nebyly uvedeny v žádném ze tří diskutovaných externích zdrojů , Do této skupiny patří většina přehlížených lncRNA. Dvě z těchto přehlédnutých uniklých lncRNA (TCONS_00017125, a TCONS_00017281, obr. 6b) se nacházejí v oblasti PAR, která je mimořádně aktivní při bialelické transkripci. Zdrojová data pro obr. 6d jsou uvedena v Doplňkovém souboru 6: Tabulka S5.

.

admin

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.

lg