- Rámec pro měření úniku z X-inaktivace v jednotlivých buňkách
- Kvantifikace bialelické exprese z jednobuněčných primárních fibroblastů
- Identifikace únikových genů v jednobuněčných primárních fibroblastech
- Kvantifikace alelické exprese z klonálně fázovaných lymfoblastů
- Identifikace úniků z jednobuněčných lymfoblastů
- Srovnání identifikovaných úniků se současnými znalostmi
- LncRNA rozšiřují seznam kandidátních escape genů
- Rozdělení uniklých genů podle důkazů
Rámec pro měření úniku z X-inaktivace v jednotlivých buňkách
Úniky identifikujeme analýzou exprese genů ze somatických jednotlivých buněk pomocí metodiky scRNA-Seq (viz Metody). Abychom zhodnotili citlivost metody, porovnáváme expresi chromozomu X (ChrX) s expresí ostatních autozomálních chromozomů. Konkrétně jsme se zaměřili na genově bohatý chromozom 17 (Chr17) jako prototyp autozomálního chromozomu. Chr17 byl vybrán, protože představuje chromozom s minimálním počtem imprintovaných genů specifických pro rodiče . Kvantitativní vlastnosti ChrX a Chr17 jsou uvedeny na obr. 1a.
Tato studie je založena na analýze dvou zdrojů ženského původu: (i) Primární fibroblasty UCF1014 (se 104 buňkami, viz Metodika). Tento soubor je specifikován transkriptomickými daty s vyšším pokrytím, ale postrádá informace o fázování haplotypů (obr. 1b); (ii) menší soubor dat klonálních lymfoblastů (n = 25) z buněčné linie GM12878 s plně fázovanými a sekvenovanými rodičovskými diploidními genomy (obr. 1c). V obou souborech dat je zdrojem informací pro určení monoalelické nebo bialelické exprese transkripce u heterozygotních SNP (hSNP). Každý hSNP v každé buňce, který je podpořen důkazem exprese nad předem stanovenou prahovou hodnotou, je považován za informativní SNP (iSNP) (viz Metody, Další soubor 1: Text). Součet iSNP pro jeden gen definuje jeho jedinečné označení jako inaktivovaný nebo uniklý gen (viz Metody, obr. 1b-c, Additional file 1: Text).
Kvantifikace bialelické exprese z jednobuněčných primárních fibroblastů
Analyzovali jsme publikovaná data scRNA-Seq z ženských primárních lidských fibroblastů . Před analýzou jsme se postarali o experimentální úskalí, které se týká mnoha jednobuněčných studií. Toto úskalí se týká dvojic buněk, u nichž je v jedné knihovně sekvenováno více než jedna buňka. V takovém scénáři budou různé aktivní chromozomy X (Xa) ze dvou různých buněk, které jsou zahrnuty do vzorku, vytvářet bialelický signál podél celého chromozomu X . I když se očekává, že podíl dubletů bude malý, může to vést k nesprávné interpretaci . Proto jsme před analýzou dat z fibroblastů znovu prošli všech 104 fibroblastů a otestovali jejich bialelický poměr vzhledem k ChrX (viz Metody). Tři buňky vykazovaly výjimečně vysoký stupeň bialelické exprese, který by mohl naznačovat směs dvou rodičovských chromozomů X (doplňkový soubor 1: text a obrázek S3). Všechny tři podezřelé buňky jsme ze všech analýz odstranili.
Poté jsme pro každou jednotlivou buňku spočítali počet čtení, která byla jednoznačně mapována na alely hSNP. Alelický poměr (AR) pro každý iSNP je definován jako podíl čtení mapovaných na alternativní alelu (Alt) z celkového počtu čtení (viz Metody, Doplňkový soubor 2: Tabulka S1). Obrázek 2a-c shrnuje AR pro ChrX, Chr17 a celé autozomální chromozomy podle souboru primárních fibroblastů (101 ze 104 buněk). Obr. 2d navíc ukazuje rozložení AR anotovaného souboru imprintovaných genů z kožních tkání (podle ). Jak již bylo dříve uvedeno , je patrné zkreslení mapování směrem k referenčnímu genomu (AR = 0) (obr. 2a-d). Kromě toho byla u všech testovaných souborů pozorována značná část monoalelické exprese (obr. 2a-d). Tento dominantní výskyt monoalelické exprese v jednotlivých buňkách je způsoben kombinací jak nedostatečného vzorkování transkriptů, tak jevu, který je znám jako „transkripční praskání“ .
Zaměřili jsme se pouze na iSNP, které vykazují nemonoalelický podpis (tj. s vyloučením AR = 0 a AR = 1). Pozorovali jsme výrazný rozdíl v distribuci AR u ChrX a imprintovaných genů ve srovnání s Chr17 a všemi autozomálními chromozomy (srovnej obr. 2a až b a obr. 2c až d). V souladu s tím lze z výsledků uvedených na obr. 2 vyvodit několik pozorování: (i) Chr17 a všechny autosomy mají podobný profil AR. (ii) Jasná tendence k vyvážené expresi (AR = 0,5) je patrná u všech autozomálních chromozomů (obr. 2a-b), nikoli však u ChrX nebo imprintovaných genů (obr. 2c-d). (iii) Podíl nemonoalelické exprese u autozomálních chromozomů je vyšší (~ 18 %) ve srovnání s ChrX (~ 9 %). (iv) Podíl nemonoalelické exprese u imprintovaných genů vykazuje střední úroveň (13 %). Taková střední úroveň je pravděpodobně odrazem inherentní nekonzistence v identitě imprintovaných genů . Doplňkový soubor 3: Tabulka S2 uvádí podpůrné iSNP pro všechny analyzované chromozomy ve fibroblastech včetně souboru imprintovaných genů.
Identifikace únikových genů v jednobuněčných primárních fibroblastech
V souboru dat primárních fibroblastů je 232 a 485 genů, které jsou podpořeny důkazy iSNP pro ChrX a Chr17. Jelikož u těchto buněk chybí informace o fázování genomu (obr. 1b), informace o úniku z chromozomu X se omezují na soubor bialelických iSNP (viz obr. 1b). Agregovali jsme iSNP podle příslušných genů (obr. 1b). Agregace se provádí napříč různými jednotlivými buňkami a napříč více iSNP v rámci konkrétního páru buňka-gén. Gen bude označen jako escapee candidate, pokud je spojen s více bialelickými iSNP. Celkem jsme identifikovali 24 takových genů (tabulka 1), které představují 10,3 % všech exprimovaných genů v ChrX. Podle očekávání je podíl genů na Chr17 vykazujících bialelickou expresi podstatně vyšší (49,3 %, Additional file 4: Table S3).
Tabulka 1 uvádí kandidáty na escapee s různým stupněm podpory. Například geny ZFX (Zinc finger X-chromosomal protein) a SMC1A (Structural maintenance of chromosomes protein 1A) mají silnou podporu 103, resp. 19 bialelických iSNP. Další zvýšení spolehlivosti identifikace úniků je založeno na tom, že existují alespoň 2 nezávislé buňky, které přispěly informací o bialelické expresi. Ukázali jsme, že toto přísné kritérium splnilo 21 z 24 genů (tabulka 1). Pozoruhodné je, že mezi identifikovanými escapees jsme zjistili pouze tři geny PAR (SLC25A6, CD99 a DHRSX, tabulka 1). Zařazení těchto genů mezi escapees souhlasí s očekávanou expresí PAR. Z počtu bialelických PAR genů z exprimovaných PAR genů jsme odhadli míru falešně negativního nálezu únikových genů až na 70 % (tj. chybělo 7 z 10 exprimovaných PAR genů). Doplňkový soubor 4: Tabulka S3 uvádí podporu pro tabulku 1.
Kvantifikace alelické exprese z klonálně fázovaných lymfoblastů
Hlavní omezení výše popsaného protokolu se týká absence fázování rodičovských haplotypů. Při tomto nastavení nelze iSNP přiřadit k Xa nebo Xi. V důsledku toho náhodný výběr Xi, který charakterizuje primární buňky, omezuje míru objevení úniků. Rozšířili jsme analýzu scRNA-Seq na lymfoblasty ženského původu z klonální buněčné linie GM12878 . Viz obr. 1c a doplňkový soubor 1:
Obrázek 3a ukazuje expresní profil pro jednotlivé buňky klonálního lymfoblastu (n = 25) (doplňkový soubor 2: tabulka S1, doplňkový soubor 5: tabulka S4). V každé jednotlivé buňce odráží monoalelická exprese kombinaci nedostatečného výběru transkriptů a jevu transkripčního prasknutí . Je zřejmé, že mateřská exprese z Xa dominuje (obr. 3a, nahoře). Toto pozorování souhlasí s uváděným mateřským původem Xa buněčné linie GM12878 . Ve většině analyzovaných buněk pochází malá, ale podstatná část naměřené celkové exprese z paternálního chromozomu Xi (obr. 3a, nahoře). Naproti tomu Chr17 a autozomální chromozomy vykazují stejnou expresi z obou alel (obr. 3a, prostřední a dolní panel).
Z obrázku je patrné, že fenomén transkripční exploze postihuje všechny chromozomy včetně ChrX. Pro posouzení vlivu tohoto jevu na identifikaci genů jako únikových jsme porovnávali jednotlivé buňky s ohledem na pool buněk (Pool100, obr. 3a, pravý sloupec). Zatímco většina iSNP z Chr17 vykazuje bialelické profily, u ChrX nadále převládá mateřská monoalelická exprese.
Obrázek 3b představuje souhrnný pohled na ChrX, Chr17 a autozomální chromozomy. Údaje vycházejí z 375, 808 a 20 212 exprimovaných hSNP. Obrázek 3b (prostřední a pravý panel) ukazuje rovnoměrné rozdělení rodičovských alel z Chr17 a autozomálních chromozomů (obr. 3b, nahoře). Provedení stejné analýzy na datech získaných z Pool100 (obr. 3c) ukazuje, že rozdělení rodičovských alel zůstává prakticky nezměněno (porovnejte podíl obsazený růžovou a modrou barvou, obr. 3b-c). Navíc jsme pozorovali posun od monoalelického (obr. 3b-c, vyplněná barva) k bialelickému projevu (obr. 3b-c, pruhovaná barva). Podíl bialelické exprese pro Ch17 se zvýšil z 19 % u jednotlivých buněk na 80 % u Pool100 a pro autozomální chromozomy z 18 % na 79 % (obr. 3c, prostřední a pravý panel). Výsledky z Pool100 ukazují, že monoalelická exprese pozorovaná v jednotlivých buňkách je prakticky zrušena zprůměrováním signálu.
Výsledky z ChrX (obr. 3b (vlevo) jsou zásadně odlišné oproti Chr17 nebo autozomálním chromozomům (obr. 3b-c). Nejvýraznějším rozdílem je, že pouze 21 % exprimovaných iSNP je spojeno s otcovskou alelou Xi v ChrX (obr. 3b, nahoře). Navíc při analýze Pool100 zůstává podíl bialelické exprese ohraničený (posun z 9 % v jednotlivých buňkách na 34 % v Pool100). Pozorovaný vzorec ChrX z Pool100 (obr. 3c, vlevo) lze nejlépe vysvětlit zprůměrováním stochastického monoalelického signálu (ve stejné míře jako u ostatních chromozomů) při zachování silného signálu monoalelické exprese Xa. Poměr alel všech testovaných chromozomů a Pool100 viz Doplňkový soubor 5: Tabulka S4.
Identifikace úniků z jednobuněčných lymfoblastů
Obrázek 4a je genocentrický pohled, který ukazuje rozdělení alel iSNP z lymfoblastů (barevně vyznačeno podle jejich původu jako mateřská, otcovská nebo smíšená exprese, viz Metody). Pouze podskupina genů, které jsou podporovány více iSNP, je uvedena podle jejich uspořádání podél chromozomů. Celkem uvádíme 93 anotovaných genů na ChrX (obr. 4a, 30 uniklých a 63 inaktivovaných genů). Všimněte si, že X-inaktivované geny představují geny, které jsou exprimovány především z mateřského Xa. Shluk genů s paternální expresí na konci p-ramene ChrX představuje očekávanou bialelickou expresi z genů PAR (obr. 4a). Další důkaz paternální exprese je lokalizován do XIC u genů jako XIST, JPX a FTX. Zatímco většina únikových genů je podporována omezeným počtem iSNP, několik z nich, jako například ZFX, CD99 a SLC25A6, je podporováno poměrně velkým počtem podpůrných iSNP (48, 38 a 34).
Alternativní metodou pro posouzení rozsahu jevu inaktivace X je kvantifikace důkazů přímo ze součtu všech sekvenovaných čtení (zkráceně protokol založený na čtení). Obrázky 4b-c porovnávají počty čtení z Chr17 (obr. 4b) a ChrX (obr. 4c) podle otcovského a mateřského původu. Porovnáváme expresní data z jednotlivých buněk a Pool100. Lineární regrese pro expresi genů z Chr17 vykazuje vysokou korelační fit-line (r2 = 0,823, obr. 4b). Podle očekávání je korelace silnější u dat pocházejících z Pool100 (r2 = 0,946, obr. 4b). Došli jsme k závěru, že navzdory monoalelické expresi v důsledku fenoménu transkripčního burstingu je silně podporována vyvážená alelická exprese všech genů. Pro ChrX je však výsledná lineární regrese jednotlivých buněk slabá (r2 = 0,238, obr. 4c) a nezlepšila ji ani data z Pool100 (r2 = 0,222, obr. 4d). Kontrola dat exprese pro ChrX ukazuje, že regresní přímky se ve skutečnosti sklánějí k mateřské expresi Xa (osa x). Expresní data odpovídají dvěma odlišným regresním přímkám pro ChrX. Jedna, která odpovídá inaktivovaným genům (rovnoběžná s osou x), a druhá odpovídá důvěryhodně bialelické expresi.
Použití konzervativního protokolu založeného na iSNP vede k identifikaci 30 genů jako kandidátů na únik, které jsou rovněž podporovány protokolem založeným na čtení (tabulka 2). Protokol založený na čtení (tj, označení genu jako escapee na základě minimálního počtu otcovských čtení, viz Metody) protokol rozšířil seznam kandidátů na escapee na celkových 49 genů (Additional file 4: Table S3).
Testování rodičovského původu alel podél genu ve stejné buňce je přísným testem spolehlivosti iSNP. Tento test je platný pouze pro geny s více hSNP. Takové geny, které jsou podporovány dvěma nebo více expresními hSNP, představují 44 % genů. Gen považujeme za konzistentní, pokud exprese podél genu v konkrétní buňce není monoalelická pro obě alely. Celkem jsme identifikovali 3 nekonzistentní geny – TEX11, FTX a ZCCHC16. U dalších 6 genů je nekonzistence pouze částečná, protože existují další pozorování bialelické exprese. Odhad z úplné nekonzistence (3 z 29 genů, které byly způsobilé pro tento test) naznačuje, že horní hranice chybné interpretace je 10 %. Protokol založený na iSNP navíc identifikoval 9 z 11 exprimovaných genů PAR. Extrapolujeme tedy míru detekce uniklých genů na 82 %. Zajímavé je, že analýza Chr17 za předpokladu, že nedochází k systematickému alelickému zkreslení , ukázala, že 7,3 % genů bylo spojeno s mateřskou a 9,6 % s otcovskou monoalelickou expresí. Tyto výsledky poskytují horní hranici 17,9 % pravděpodobnosti falešného označení genu v Chr17 a mohou být použity pro odhad omezení metody.
Požadavek na paternální důkaz z alespoň dvou buněk snižuje počet uniklých genů ze 49 na 18 (včetně 5 PAR genů). Mnoho genů s jedinou evidencí vyplývajících ze specifické odlehlé buňky (SRR764803), která přispěla k 17 ze 49 uváděných genů (tabulka 2, doplňkový soubor 5: tabulka S4). Tato buňka vykazuje nejvyšší úrovně exprese na ChrX i Chr17 (doplňkový soubor 1: Text a obrázek S4). V tabulce 2 jsou uvedeni objevení kandidáti na únik spolu s jejich podpůrnými důkazy (tabulka 2).
Srovnání identifikovaných úniků se současnými znalostmi
Testovali jsme shodu mezi identifikovanými úniky z naší studie a katalogem založeným na literatuře . Tento jednotný katalog byl sestaven na základě integrace čtyř nezávislých studií, které zahrnují 1144 genů z ChrX. Geny v tomto katalogu jsou ručně rozděleny do devíti definovaných kategorií (viz Metody). Největší z nich představuje geny, o kterých chybí informace (45 %) . Přibližně 15 % genů (168/1144) je považováno za geny „spojené s únikem“ (viz Metody). Sestavený soubor genů „spojených s únikem“ považujeme za zlatý standard pro testování míry objevení úniku v naší studii (celkem 124 genů, vyloučené PAR geny, souhrnně nazývané Balaton-Esc).
Pro posouzení překrývání různých seznamů genů spojených s únikem jsme použili hypergeometrický statistický test (viz Metody) (obr. 5). Obrázek 5a ukazuje počet identifikovaných escape genů z fibroblastů a lymfoblastů (s vyloučením genů PAR). Všimněte si, že do této analýzy jsou zahrnuty pouze geny, které jsou zahrnuty ve srovnávacím testu Balaton-Esc (obr. 5). Obr. 5b ukazuje statistickou významnost překryvu mezi seznamy genů z obr. 5a a Balaton-Esc . Jak je vidět, dochází k významnému překryvu mezi úniky z lymfoblastů (tabulka 2 a doplňkový soubor 4: tabulka S3) a seznamem Balaton-Esc (obr. 5b, p-hodnota = 7,43E-8). Použití stejného testu pro primární fibroblasty (tab. 1) vedlo k nižší významnosti (p-hodnota = 4,07E-2).
Obrázek 5c znázorňuje překrývající se geny mezi escapees identifikovanými v naší studii a katalogem Balaton-Esc (168 genů včetně genů PAR) . Zařadili jsme také doplňkový zdroj založený na 940 transkriptomech ze scRNA-Seq (25 genů úniků, Tukiainen-Esc) . Vennův diagram ukazuje, že každá z výše uvedených studií přispívá k současným znalostem o útěkářích. Únikové geny z obou externích zdrojů se překrývají 18 z 25 uváděných genů (72 %). Jak ukazuje obr. 5c, 62 % escapeů hlášených z lymfoblastů se překrývá se seznamy externích escapeů, zatímco fibroblasty jsou podpořeny pouze 38% překryvem. Pozoruhodné je, že většina námi objevených kandidátních escape genů z fibroblastů (62 %) se neshoduje s ostatními testovanými seznamy (Additional file 6: Table S5).
LncRNA rozšiřují seznam kandidátních escape genů
Rozšířili jsme naši analýzu na dlouhé nekódující RNA (lncRNA) pomocí stejných kritérií pro escape geny, jaká jsme použili z kódujících genů (obr. 6). Celkem jsme identifikovali 15 lncRNA jako kandidáty na únik, z nichž pouze několik bylo již dříve studováno. Umístění lncRNA a kódujících uniklých genů podél ChrX je znázorněno (obr. 6a). Testovali jsme polohu escapees podél ChrX vzhledem ke všem genům ChrX. Zatímco rozložení pozic pro úniky lncRNA je podobné (Kolmogorov-Smirnovův test, p-hodnota = 0,57), u kódujících úniků se liší (Kolmogorov-Smirnovův test, p-hodnota = 0,004, obr. 6a).
Na obrázku 6b je uvedeno všech 15 identifikovaných lncRNA uniklých genů, mezi nimiž jsou ncRNA geny z XIC, které koordinují aktivaci a udržování X-inaktivace. Mnohé z lncRNA jsou lokalizovány v transkripčně aktivních segmentech (např. v rámci PAR nebo XIC), zatímco jiné jsou lokalizovány v nekonzervovaných oblastech, které jsou obohaceny o dlouhé a krátké ncRNA. Další lncRNA, včetně inaktivovaných genů, viz Doplňkový soubor 7: Tabulka S6.
Rozdělení uniklých genů podle důkazů
Obrázek 6c shrnuje rozdělení podle důkazů pro všechny geny, které jsou s jakoukoli úrovní spolehlivosti uváděny jako uniklé (Doplňkový soubor 6: Tabulka S5). Tento seznam zahrnuje 75 kandidátů, kteří jsou uváděni v této studii, včetně důkazů z Pool100, sbírky nových lncRNA. Obrázek 6d uvádí podrobný seznam nálezů z těchto dat s ohledem na servalové externí zdroje. U každého genu je také uveden počet buněk poskytujících důkazy.
S ohledem na tyto externí zdroje jsme každý gen přiřadili podle kvality nezávislé podpory s ním spojené (obr. 6c a d). Konkrétně jsme rozdělili seznam 75 genů do čtyř skupin: (i) Geny jsou označeny jako „potvrzené“, pokud jsou hlášeny jako uniklé oběma dříve diskutovanými externími zdroji . Takových genů, u nichž tato studie poskytuje další potvrzení jejich identity jako escapees, je 31. (ii) Dalších 7 genů je označeno jako „schválené“. Tyto geny jsou označeny jako escapees pouze jedním ze dvou externích zdrojů . U těchto genů nezávislá evidence z této studie potvrzuje jejich identitu. (iii) Dalších 12 genů je označeno jako „pravděpodobné“ escapees. Tyto geny jsou přiřazeny podle shody s další externí zprávou uvádějící 114 escapees , která nebyla zahrnuta do katalogu založeného na literatuře , a lze ji tedy považovat za nezávislý zdroj. (iv) Dalších 25 genů je označeno jako „možné“ úniky. Těmto genům chybí jakýkoli literární důkaz na podporu jejich identity, a proto jejich přiřazení k escapees zůstává méně podložené. Mezi nimi je 5 genů podpořeno pouze z odlehlé buňky z lymfoblastu, a jsou tedy pravděpodobně falešné. V tomto souboru je dalších 10 genů, které nebyly uvedeny v žádném ze tří diskutovaných externích zdrojů , Do této skupiny patří většina přehlížených lncRNA. Dvě z těchto přehlédnutých uniklých lncRNA (TCONS_00017125, a TCONS_00017281, obr. 6b) se nacházejí v oblasti PAR, která je mimořádně aktivní při bialelické transkripci. Zdrojová data pro obr. 6d jsou uvedena v Doplňkovém souboru 6: Tabulka S5.
.