A framework for measuring the escape from X-inactivation in single cells

Identyfikujemy uciekinierów analizując ekspresję genów z pojedynczych komórek somatycznych przy użyciu metodologii scRNA-Seq (patrz Metody). Aby ocenić czułość metody, porównaliśmy ekspresję chromosomu X (ChrX) do innych chromosomów autosomalnych. W szczególności, skupiliśmy się na bogatym w geny chromosomie 17 (Chr17) jako prototypie chromosomu autosomalnego. Chr17 został wybrany, ponieważ reprezentuje chromosom z minimalną liczbą specyficznych dla rodzica genów imprintowanych. Właściwości ilościowe ChrX i Chr17 są wymienione na Rys. 1a.

Rys. 1

Przebieg pracy do identyfikacji genów uciekinierów z pojedynczych komórek. a Właściwości ilościowe ChrX i Chr17 są wymienione zgodnie z GRCh37 (GRC Human Build 37). b Schemat analizy pojedynczych komórek pierwotnych fibroblastów. Dwa kolory dla jąder reprezentują losowy wybór Xa. W kontekście fibroblastów, każdy Xa wykazuje inny wzór ekspresji dla hSNPs. Każdy z iSNPs może być przypisany do allelu referencyjnego (R) lub alternatywnego (A). Jeśli jedna komórka z jednym Xa będzie miała wzór ekspresji A R A, komórka z alternatywnym Xa będzie wyrażać R A R. Ze względu na losową inaktywację X i brak fazowości hSNPs, adnotacja genu jako uciekiniera jest całkowicie oparta na posiadaniu wielu dowodów iSNPs z ekspresją bialleliczną. Tabela ilustracyjna przedstawia analizę iSNPs z każdego z hSNPs (po lewej) w każdej z komórek jako A lub R oraz adnotację genu zgodnie z nagromadzeniem dowodów iSNPs. Na ilustracji zaznaczono hSNPs pochodzące z 4 pojedynczych komórek (od komórka-1 do komórka-4). HSNPs są związane z 3 genami (oznaczonymi jako geny od a do c). Gen a jest jedynym genem z wielokrotnymi biallelicznymi iSNPs, dlatego jest on anotowany jako Escapee gene (Esc). Pozostałe dwa geny albo nie mają biallelicznych iSNP (gen b), albo mają tylko pojedynczy iSNP świadczący o ekspresji biallelicznej (gen c) i dlatego są anotowane jako Inactivated gene (Ina). c Schemat dla pojedynczych komórek klonalnych limfoblastów. W przeciwieństwie do pierwotnych fibroblastów (b), rodzicielskie pochodzenie Xa jest identyczne dla wszystkich komórek. W tym przypadku linii komórkowej GM12878 Xa związana jest z allelem matczynym (M) (symbolizowanym przez różowo zabarwione jądra). W przypadku limfoblastów, występowanie allelu ojcowskiego (oznaczonego jako P) wystarcza do identyfikacji iSNP ulegającego ekspresji z Xi i tym samym może być potencjalnie przypisany jako uciekinier. Tabela po prawej stronie podkreśla przyporządkowanie uciekinierów do limfoblastów. Kategorie w tabeli są takie same jak w (b). Szczegóły dotyczące przebiegu pracy i zastosowanych protokołów, patrz plik dodatkowy 1: Tekst i rysunek S1

Niniejsze badanie opiera się na analizie dwóch zasobów pochodzenia żeńskiego: (i) Pierwotne fibroblasty UCF1014 (z 104 komórek, patrz Metody). Zestaw ten charakteryzuje się większym pokryciem danych transkryptomicznych, ale brakuje w nim informacji o fazowaniu haplotypów (ryc. 1b); (ii) mniejszy zestaw danych klonalnych limfoblastów (n = 25) z linii komórkowej GM12878 z w pełni sfazowanymi i zsekwencjonowanymi genomami diploidalnymi rodziców (ryc. 1c). W obu zestawach danych transkrypcja przy heterozygotycznych SNP (hSNPs) jest źródłem informacji do określenia ekspresji monoallelicznej lub biallelicznej. Każdy hSNP, w każdej komórce, który jest wspierany przez dowody ekspresji powyżej wcześniej ustalonego progu, jest uważany za informacyjny SNP (iSNP) (patrz Metody, plik dodatkowy 1: Tekst). Suma iSNPs na gen definiuje jego unikalną etykietę jako gen inaktywowany lub uciekający (patrz Metody, Fig. 1b-c, Dodatkowy plik 1: Tekst).

Quantifying biallelic expression from single cell primary fibroblasts

Przeanalizowaliśmy opublikowane dane scRNA-Seq z żeńskich pierwotnych ludzkich fibroblastów. Przed analizą zajęliśmy się eksperymentalną pułapką istotną dla wielu badań jednokomórkowych. Pułapka ta dotyczy dubletów komórkowych, w których więcej niż jedna komórka jest sekwencjonowana w jednej bibliotece. W takim scenariuszu, różne aktywne chromosomy X (Xa) z dwóch różnych komórek, które są zawarte w próbce, wytworzą sygnał bialleliczny wzdłuż całego chromosomu X. Chociaż oczekuje się, że frakcja dubletów będzie niewielka, może ona prowadzić do błędnej interpretacji. Dlatego też, przed analizą danych z fibroblastów, ponownie sprawdziliśmy wszystkie 104 fibroblasty i przetestowaliśmy ich stosunek bialleliczny w odniesieniu do ChrX (patrz Metody). Trzy komórki wykazywały wyjątkowo wysoki stopień ekspresji biallelicznej, co może wskazywać na mieszankę dwóch rodzicielskich chromosomów X (plik dodatkowy 1: Tekst i Figura S3). Usunęliśmy wszystkie trzy podejrzane komórki ze wszystkich analiz.

Następnie, dla każdej pojedynczej komórki, policzyliśmy liczbę odczytów, które zostały jednoznacznie zmapowane do alleli hSNP. Stosunek alleliczny (AR) dla każdego iSNP jest zdefiniowany jako frakcja odczytów mapowanych do alternatywnego allelu (Alt) z całkowitej liczby odczytów (patrz Metody, plik dodatkowy 2: Tabela S1). Rys. 2a-c podsumowuje AR ChrX, Chr17 i całego chromosomu autosomalnego zgodnie z kolekcją pierwotnych fibroblastów (101 ze 104 komórek). Dodatkowo, Rys. 2d pokazuje rozkład AR adnotowanego zestawu genów imprintowanych z tkanek skóry (wg ). Zgodnie z wcześniejszymi doniesieniami, widoczny jest bias w mapowaniu w kierunku genomu referencyjnego (AR = 0) (ryc. 2a-d). Dodatkowo, dla wszystkich badanych zestawów zaobserwowano znaczną frakcję ekspresji monoallelicznej (ryc. 2a-d). To dominujące występowanie ekspresji monoallelicznej w pojedynczych komórkach jest spowodowane kombinacją zarówno niedostatecznego próbkowania transkryptów, jak i zjawiska, które znane jest jako „rozerwanie transkrypcji” .

Fig. 2

Rozkład stosunku allelicznego (AR) dla każdego SNP jako frakcji przypisań dla alleli alternatywnych (Alt) spośród alleli Alt i referencyjnych (Ref). Oś X w górnych histogramach waha się od 0 do 1,0, gdzie 0 oznacza, że wszystkie przypisania są związane z allelem Ref, a 1 oznacza wszystkie przypisania dla allelu Alt. Ponieważ większość iSNPs jest przypisana z wartościami AR równymi 0 lub 1, każda analiza jest przedstawiona za pomocą dwóch histogramów. Dolny histogram koncentruje się na niemonoallelicznych iSNP i obejmuje wszystkie wartości AR z wyjątkiem AR = 0 i AR = 1. Pokazano procent iSNPs, które są zawarte w dolnych histogramach. Rozkłady AR są pokazane dla Chr17 (a), chromosomów autosomalnych (b), ChrX (c) i genów imprintowanych (d). Dla danych źródłowych, patrz plik dodatkowy 3: Tabela S2

Skupiliśmy się tylko na iSNPs, które wykazują sygnaturę niemonoalleliczną (tj. wykluczając AR = 0 i AR = 1). Zaobserwowaliśmy wyraźną różnicę w dystrybucji AR ChrX i genów imprintowanych w stosunku do Chr17 i wszystkich chromosomów autosomalnych (porównaj Fig. 2a do b i Fig. 2c do d). W związku z tym, na podstawie wyników przedstawionych na Rys. 2 można sformułować kilka spostrzeżeń: (i) Chr17 i wszystkie autosomy charakteryzują się podobnym profilem AR. (ii) Wyraźna tendencja do zrównoważonej ekspresji (AR = 0,5) jest widoczna dla wszystkich chromosomów autosomalnych (Rys. 2a-b), ale nie dla ChrX czy genów imprintowanych (Rys. 2c-d). (iii) Frakcja ekspresji nie-monoallelicznej w chromosomach autosomalnych jest wyższa (~ 18%) w stosunku do ChrX (~ 9%). (iv) Frakcja ekspresji nie-monoallelicznej w genach imprintowanych wykazuje poziom pośredni (13%). Taki pośredni poziom jest prawdopodobnie odzwierciedleniem nieodłącznej niespójności w identyfikacji genów imprintowanych. Plik dodatkowy 3: Tabela S2 zawiera listę wspierających iSNPs dla wszystkich analizowanych chromosomów w fibroblastach, w tym zestaw genów imprintowanych.

Identyfikacja ucieczek w pojedynczych komórkach pierwotnych fibroblastów

W zbiorze danych pierwotnych fibroblastów, istnieją 232 i 485 genów, które są wspierane przez dowody iSNPs odpowiednio dla ChrX i Chr17. Ponieważ komórki te nie posiadają informacji o fazowaniu genomu (Rys. 1b), informacja o ucieczce z chromosomu X jest ograniczona do zestawu biallelicznych iSNPs (patrz Rys. 1b). Agregowaliśmy iSNPs według odpowiadających im genów (Ryc. 1b). Agregacja jest wykonywana dla różnych pojedynczych komórek i dla wielu iSNPs w obrębie konkretnej pary komórka-gen. Gen zostanie oznaczony jako kandydat na uciekiniera, jeśli jest związany z wieloma biallelicznymi iSNPs. Łącznie zidentyfikowaliśmy 24 takie geny (Tabela 1), które stanowią 10,3% wszystkich genów ulegających ekspresji w ChrX. Zgodnie z oczekiwaniami, frakcja genów na Chr17 wykazujących ekspresję bialleliczną jest znacznie wyższa (49,3%, plik dodatkowy 4: Tabela S3).

Tabela 1 Geny uciekające ze 101 pierwotnych fibroblastów jednokomórkowych. Pełna lista wszystkich genów jest dostępna w pliku dodatkowym 3: Tabela S4

Tabela 1 zawiera listę kandydatów na uciekinierów o różnym stopniu wsparcia. Na przykład, geny ZFX (Zinc finger X-chromosomal protein) i SMC1A (Structural maintenance of chromosomes protein 1A) są silnie wspierane odpowiednio 103 i 19 biallelicznymi iSNPs. Dalszy wzrost wiarygodności identyfikacji uciekinierów jest oparty na posiadaniu co najmniej 2 niezależnych komórek, które dostarczyły informacji o ekspresji biallelicznej. Wykazujemy, że 21 z 24 genów spełniało to rygorystyczne kryterium (Tabela 1). Warto zauważyć, że wśród zidentyfikowanych genów uciekinierów wykryliśmy tylko trzy geny PAR (SLC25A6, CD99 i DHRSX, Tabela 1). Przypisanie tych genów jako uciekinierów zgadza się z oczekiwaną ekspresją PAR. Na podstawie liczby genów biallelicznych PAR spośród wyrażonych genów PAR, oszacowaliśmy, że współczynnik fałszywego negatywnego odkrycia dla uciekinierów wynosi aż 70% (tj. pominięto 7 z 10 wyrażonych genów PAR). Plik dodatkowy 4: Tabela S3 pokazuje wsparcie dla tabeli 1.

Quantifying allelic expression from clonal phased lymphoblasts

Główne ograniczenie w protokole opisanym powyżej dotyczy braku rodzicielskiego fazowania haplotypów. W tym ustawieniu, iSNPs nie mogą być przypisane do Xa lub Xi. W konsekwencji, losowy wybór Xi, który charakteryzuje komórki pierwotne, ogranicza wskaźnik odkryć dla ucieczek. Rozszerzyliśmy analizę scRNA-Seq na limfoblasty pochodzenia żeńskiego z klonalnej linii komórkowej GM12878 . Zobacz ryc. 1c i plik dodatkowy 1: Figura S4.

Rysunek 3a przedstawia profil ekspresji dla pojedynczych komórek limfoblastów klonalnych (n = 25) (plik dodatkowy 2: Tabela S1, plik dodatkowy 5: Tabela S4). W każdej pojedynczej komórce ekspresja monoalleliczna odzwierciedla połączenie niedostatecznego próbkowania transkryptów i zjawiska rozerwania transkrypcji . Wyraźnie widać, że ekspresja matczyna z Xa dominuje (Fig. 3a, góra). Obserwacja ta zgadza się z doniesieniami o matczynym pochodzeniu Xa z linii komórkowej GM12878 . W większości analizowanych komórek, niewielka, ale znacząca część mierzonej całkowitej ekspresji pochodzi z ojcowskiego chromosomu Xi (Rys. 3a, góra). W przeciwieństwie do tego, Chr17 i chromosomy autosomalne wykazują równą ekspresję z obu alleli (Ryc. 3a, środkowy i dolny panel).

Fig. 3

Kwantyfikacja etykiet iSNPs z 25 pojedynczych komórek limfoblastów. a Każda pojedyncza komórka jest podzielona zgodnie z jej oznaczonymi allelami iSNPs na ChrX, Chr17 i wszystkich chromosomach autosomalnych. iSNPs są związane z ekspresją matczyną (różowy), ojcowską (jasnoniebieski) i zrównoważoną (szary). Komórki są uporządkowane od lewej do prawej zgodnie z ich wkładem iSNP (plik dodatkowy 1: Figura S4). Po prawej stronie pokazano statystyki zbiorcze dla Pool100. b Podsumowanie podziału znaczników iSNPs dla wszystkich 25 pojedynczych komórek na ChrX, Chr17 i chromosomach autosomalnych. c Podsumowanie podziału znaczników iSNPs dla Pool100. Kolory niebieski i różowy są związane odpowiednio z allelem ojcowskim i matczynym. Wzór w paski wskazuje na bialleliczne iSNPs skłaniające się ku allelom ojcowskim (niebieski) lub matczynym (różowy). Dla pojedynczych komórek, dane oparte są na 375 iSNPs dla ChrX, 808 iSNPs dla Chr17 i 20,212 iSNPs dla chromosomów autosomalnych. Dane dla Pool100 są oparte na 211 iSNPs dla ChrX, 216 dla Chr17 i 5360 iSNPs dla chromosomów autosomalnych. Dane źródłowe patrz plik dodatkowy 5: Tabela S4

Z rysunku widać, że zjawisko burstu transkrypcyjnego dotyczy wszystkich chromosomów, w tym ChrX. Aby ocenić wpływ tego zjawiska na identyfikację genów jako uciekinierów, porównaliśmy pojedyncze komórki w odniesieniu do puli komórek (Pool100, Rys. 3a, prawy pasek). Podczas gdy większość iSNPs z Chr17 wykazuje profile bialleliczne, ChrX pozostaje zdominowany przez matczyną ekspresję monoalleliczną.

Rysunek 3b jest zagregowanym widokiem ChrX, Chr17 i chromosomów autosomalnych. Dane oparte są na 375, 808 i 20 212 wyrażonych hSNPs, odpowiednio. Rysunek 3b (środkowy i prawy panel) pokazuje równy podział alleli rodzicielskich z Chr17 i chromosomów autosomalnych (Rys. 3b, góra). Przeprowadzenie tej samej analizy na danych zebranych z Pool100 (Rys. 3c) pokazuje, że partycja alleli rodzicielskich pozostaje praktycznie niezmieniona (porównaj frakcję zajmowaną przez kolory różowy i niebieski, Rys. 3b-c). Dodatkowo zaobserwowano przejście od ekspresji monoallelicznej (Rys. 3b-c, kolor wypełniony) do biallelicznej (Rys. 3b-c, kolor prążkowany). Frakcja ekspresji biallelicznej dla Ch17 wzrosła z 19% w pojedynczych komórkach do 80% w Pool100, a dla chromosomów autosomalnych z 18 do 79% (Rys. 3c, panel środkowy i prawy). Wyniki z Pool100 wskazują, że monoalleliczna ekspresja obserwowana w pojedynczych komórkach jest praktycznie zniesiona przez uśrednienie sygnału.

Wyniki z ChrX (Rys. 3b (po lewej) są zasadniczo różne w stosunku do Chr17 lub chromosomów autosomalnych (Rys. 3b-c). Najbardziej zauważalną różnicą jest to, że tylko 21% wyrażonych iSNPs jest związanych z ojcowskim allelem Xi w ChrX (Ryc. 3b, góra). Ponadto, analizując Pool100, frakcja ekspresji biallelicznej pozostaje ograniczona (przesunięcie z 9% w pojedynczych komórkach do 34% w Pool100). Obserwowany wzór ChrX z Pool100 (Ryc. 3c, po lewej) jest najlepiej wyjaśniony przez uśrednienie stochastycznego sygnału monoallelicznego (w tym samym stopniu, co inne chromosomy) przy zachowaniu silnego sygnału ekspresji monoallelicznej Xa. Zobacz plik dodatkowy 5: Tabela S4 dla stosunku allelicznego limfoblastów wszystkich badanych chromosomów i Pool100.

Identyfikacja uciekinierów z limfoblastów jednokomórkowych

Rysunek 4a to widok genocentryczny, który pokazuje partycję alleliczną iSNP z limfoblastów (pokolorowaną zgodnie z ich pochodzeniem jako matczyną, ojcowską lub mieszaną ekspresją, patrz Metody). Tylko podzbiór genów, które są wspierane przez wiele iSNPs, jest wymieniony zgodnie z ich kolejnością wzdłuż chromosomów. W sumie opisujemy 93 anotowane geny na ChrX (Ryc. 4a, 30 genów uciekających i 63 geny nieaktywne). Należy zauważyć, że geny inaktywowane przez X odpowiadają genom, które ulegają ekspresji głównie z matczynego Xa. Skupisko genów z ojcowską ekspresją na końcu p-ramienia ChrX reprezentuje oczekiwaną bialleliczną ekspresję genów PAR (Rys. 4a). Dodatkowe dowody na ojcowską ekspresję są zlokalizowane w XIC z genami takimi jak XIST, JPX i FTX. Podczas gdy większość ucieczek jest wspierana przez ograniczoną liczbę iSNPs, kilka z nich, takich jak ZFX, CD99 i SLC25A6, jest wspieranych przez stosunkowo dużą liczbę wspierających iSNPs (odpowiednio 48, 38 i 34).

Ryc. 4

Podział genocentryczny alleli z komórek limfoblastów. a Dla każdego genu na ChrX pokazano podział rodzicielski iSNPs wraz z liczbą iSNPs. Dla jasności, wymienione są tylko geny, które są wspierane przez > = 2 iSNPS. W sumie 93 geny w ChrX są wymienione według ich kolejności na chromosomie. Kod kolorystyczny jest zgodny z etykietami iSNP jako ojcowski, matczyny i zrównoważonej ekspresji. Dane źródłowe, patrz plik dodatkowy 5: Tabela S4. b-c Korelacja pomiędzy poziomami ekspresji z alleli ojcowskich i matczynych. Wykresy rozrzutu pokazują poziomy ekspresji genów według liczby odczytów związanych z allelami matczynymi (oś x) i ojcowskimi (oś y). Liczba analizowanych genów dla każdego wykresu rozrzutu jest wskazana (na osi x, w nawiasie). Pokazane dane pochodzą z Chr17 (b) i ChrX (c) na podstawie pojedynczych komórek i Pool100. Należy zauważyć, że liczba odczytów dla danych Pool100 jest 10-krotnie mniejsza w odniesieniu do skumulowanych danych wyodrębnionych z pojedynczych komórek. Dane źródłowe, patrz plik dodatkowy 4: Tabela S3

Alternatywną metodą oceny zakresu zjawiska inaktywacji X jest ilościowe określenie dowodów bezpośrednio z sumy wszystkich sekwencjonowanych odczytów (skrótowo nazywane protokołem opartym na odczytach). Ryc. 4b-c porównują liczby odczytów z Chr17 (ryc. 4b) i ChrX (ryc. 4c) według pochodzenia ojcowskiego i matczynego. Porównujemy dane ekspresji z pojedynczych komórek i z Pool100. Regresja liniowa dla ekspresji genów z Chr17 wykazuje wysoką korelację linii dopasowania (r2 = 0,823, ryc. 4b). Zgodnie z oczekiwaniami, korelacja ta jest silniejsza w danych pochodzących z Pool100 (r2 = 0.946, Rys. 4b). Stwierdziliśmy, że pomimo monoallelicznej ekspresji spowodowanej zjawiskiem burstingu transkrypcyjnego, zrównoważona ekspresja alleliczna wszystkich genów jest silnie wspierana. Dla ChrX jednak, wynikowa regresja liniowa pojedynczych komórek jest słaba (r2 = 0,238, Rys. 4c) i nie została poprawiona przez dane z Pool100 (r2 = 0,222, Rys. 4d). Inspekcja danych ekspresji dla ChrX pokazuje, że linie regresji faktycznie skłaniają się w kierunku ekspresji matczynego Xa (oś x). Dane dotyczące ekspresji są zgodne z dwiema odrębnymi liniami regresji dla ChrX. Jedna, która pasuje do genów inaktywowanych (równolegle do osi x), a druga pasuje do ufnie biallelicznej ekspresji.

Zastosowanie konserwatywnego protokołu opartego na iSNP prowadzi do identyfikacji 30 genów jako kandydatów na uciekinierów, które są również wspierane przez protokół oparty na odczycie (Tabela 2). Protokół read-based (tj, oznaczanie genu jako uciekiniera przez posiadanie minimalnej liczby ojcowskich odczytów, patrz Metody) protokół rozszerzył listę kandydatów na uciekinierów, aby objąć łącznie 49 genów (plik dodatkowy 4: Tabela S3).

Tabela 2 Uciekinierzy z 25 klonalnych jednokomórkowych limfoblastów

Testowanie pochodzenia rodzicielskiego alleli wzdłuż genu w tej samej komórce jest surowym testem wiarygodności iSNPs. Ten test jest ważny tylko dla genów z wieloma hSNPs. Takie geny, które są wspierane przez dwa lub więcej wyrażających się hSNPs, stanowią 44% genów. Uważamy, że gen jest spójny, jeśli ekspresja wzdłuż genu w określonej komórce nie jest monoalleliczna dla obu alleli. Łącznie zidentyfikowaliśmy 3 niespójne geny – TEX11, FTX i ZCCHC16. Dla kolejnych 6 genów niespójność jest tylko częściowa, gdyż istnieją inne obserwacje ekspresji biallelicznej. Szacunek z pełnej niespójności (3 z 29 genów, które kwalifikowały się do tego testu) sugeruje, że górna granica błędnej interpretacji wynosi 10%. Dodatkowo, protokół oparty na iSNP zidentyfikował 9 z 11 genów PAR ulegających ekspresji. Tak więc ekstrapolujemy wskaźnik wykrywalności uciekinierów na 82%. Co ciekawe, analiza Chr17, przy założeniu, że nie ma systematycznej tendencyjności allelicznej, wykazała, że 7,3 i 9,6% genów było związanych z matczyną i ojcowską monoalleliczną ekspresją, odpowiednio. Wyniki te zapewniają górną granicę 17,9% do prawdopodobieństwa fałszywego etykietowania genów w Chr17 i mogą być wykorzystane do oszacowania ograniczenia metody.

Żądanie ojcowskich dowodów z co najmniej dwóch komórek zmniejsza liczbę ucieczek z 49 do 18 (w tym 5 genów PAR). Wiele pojedynczych genów dowodowych wynikających z konkretnej komórki odstającej (SRR764803), która przyczyniła się do 17 z 49 zgłoszonych genów (Tabela 2, plik dodatkowy 5: Tabela S4). Komórka ta wykazuje najwyższe poziomy ekspresji zarówno na ChrX jak i Chr17 (plik dodatkowy 1: tekst i rysunek S4). Tabela 2 zawiera listę odkrytych kandydatów na uciekinierów wraz z ich dowodami wspierającymi (Tabela 2).

Porównanie zidentyfikowanych uciekinierów do obecnej wiedzy

Sprawdziliśmy zgodność między zidentyfikowanymi uciekinierami z naszego badania a katalogiem opartym na literaturze . Ten ujednolicony katalog został skompilowany z integracji czterech niezależnych badań, które obejmują 1144 geny z ChrX. Geny w tym katalogu są ręcznie podzielone na dziewięć zdefiniowanych kategorii (patrz Metody). Największa z nich obejmuje geny, o których brak informacji (45%). Około 15% genów (168/1144) uważanych jest za 'escapee-associated’ (patrz Metody). Uważamy skompilowany zestaw genów 'escapee-associated’ za złoty standard do testowania współczynnika odkrycia escapee w naszym badaniu (łącznie 124 geny, wyłączone geny PAR, wspólnie nazwane Balaton-Esc).

Zastosowaliśmy hipergeometryczny test statystyczny (patrz Metody), aby ocenić nakładanie się różnych list genów escapee (Ryc. 5). Figura 5a pokazuje liczbę zidentyfikowanych uciekinierów z fibroblastów i limfoblastów (z wyłączeniem genów PAR). Należy zauważyć, że tylko geny, które są zawarte w benchmarku Balaton-Esc są uwzględnione w tej analizie (Rys. 5). Rysunek 5b pokazuje statystyczną istotność nakładania się list genów z Rys. 5a i Balaton-Esc . Jak widać, istnieje znaczące nakładanie się uciekinierów z limfoblastów (Tabela 2 i plik dodatkowy 4: Tabela S3) i listy Balaton Esc (Rys. 5b, p-value = 7.43E-8). Zastosowanie tego samego testu dla pierwotnych fibroblastów (tab. 1) dało niższą istotność (p-value = 4.07E-2).

Ryc. 5

Zidentyfikowane ucieczki i istotność statystyczna pokrywania się z katalogiem literaturowym opracowanym przez Balaton i wsp. . a Liczby ucieczek zidentyfikowanych przez każdą z analiz. Liczby obejmują tylko geny, które były obecne w Balaton et al. i nie obejmują genów PAR. b Analiza statystyczna oparta na rozkładzie hipergeometrycznym mierząca nakładanie się listy literaturowej przedstawionej przez Balaton et al. i uciekinierów przypisanych w niniejszej pracy (jak w (a)). Oś Y to -log10(x) obliczonej wartości p. c Diagram Wenn’a 4 zestawów uciekinierów według analizowanych fibroblastów i limfoblastów, zbioru Balaton-Esc , oraz zbioru Tukiainen-Esc . Włączając PAR. Dla szczegółów zobacz tekst. Dane źródłowe w pliku dodatkowym 6: Tabela S5

Rysunek 5c przedstawia nakładające się geny między uciekinierami zidentyfikowanymi w naszym badaniu a katalogiem Balaton-Esc (168 genów, w tym geny PAR) . Dołączyliśmy również uzupełniający zasób oparty na 940 transkryptomach z scRNA-Seq (25 genów uciekinierów, Tukiainen-Esc) . Diagram Venn pokazuje, że każde z powyższych badań wnosi wkład do obecnej wiedzy na temat uciekinierów. Geny uciekinierów z dwóch zewnętrznych zasobów pokrywają się w 18 z 25 zgłoszonych genów (72%). Jak pokazano na Rys. 5c, 62% uciekinierów zgłoszonych z limfoblastów pokrywa się z zewnętrznymi listami uciekinierów, podczas gdy w przypadku fibroblastów pokrywa się tylko w 38%. Co ciekawe, większość odkrytych przez nas genów kandydujących na uciekinierów z fibroblastów (62%) nie odpowiada innym badanym listom (plik dodatkowy 6: Tabela S5).

LncRNA rozszerzają listę kandydatów na uciekinierów

Rozszerzyliśmy naszą analizę na długie niekodujące RNA (lncRNA), używając tych samych kryteriów ucieczki, jakie zastosowaliśmy w przypadku genów kodujących (Ryc. 6). Łącznie zidentyfikowaliśmy 15 lncRNA jako kandydatów na uciekinierów, z których tylko kilka było wcześniej badanych. Lokalizacja lncRNA i ucieczek kodujących wzdłuż ChrX jest przedstawiona (Rys. 6a). Sprawdziliśmy pozycje uciekinierów wzdłuż ChrX w stosunku do wszystkich genów ChrX. Podczas gdy rozkład pozycji dla ucieczek lncRNA jest podobny (test Kolmogorova-Smirnova, p-value = 0,57), jest on inny dla ucieczek kodujących (test Kolmogorova-Smirnova, p-value = 0,004, Fig. 6a).

Ryc. 6

LncRNA przypisane jako ucieczki, oraz grupy ucieczek wg poziomu ufności. a Rozproszenie ucieczek wzdłuż ChrX. Ucieczki należące do lncRNA i do genów kodujących zaznaczone są odpowiednio powyżej i poniżej schematu ChrX. b Tabela z listą 15 kandydatów na uciekinierów lncRNA. Kolorem pomarańczowym zaznaczono escapee, a szarym inaktywowane. Przypisanie oparte na pojedynczym iSNP jest zaznaczone kolorem jasnopomarańczowym. Kolor biały wskazuje na brak raportu lub brak ekspresji. XIC, region centrum inaktywacji X. c Podział 75 genów, które zostały wymienione jako kandydaci na uciekinierów w tym badaniu. Kategorie są oznaczone jako „potwierdzone”, „zatwierdzone”, „prawdopodobne” i „możliwe” (patrz tekst). Dwa zewnętrzne źródła, które zostały użyte do zdefiniowania grup pochodzą z literatury i z single-cell by . Dla grupy 'prawdopodobny’ uciekinier, użyliśmy adnotacji uciekiniera z jako dowodu. Należy zauważyć, że 11 z 15 wymienionych genów lncRNA jest włączonych do zbioru „prawdopodobnych” uciekinierów. d Podsumowanie grup opartych na dowodach dla 75 genów. Geny są posortowane zgodnie z 4 grupami dowodów (jak w c) Uciekinierzy są pokolorowani na pomarańczowo. Jasnopomarańczowe oznaczają uciekinierów, którzy są wspierani przez pojedynczy dowód z jednej komórki tylko w fibroblastach. Geny nieaktywowane są oznaczone kolorem szarym. Biały kolor wskazuje na brak ekspresji lub brak raportu. Dowody komórkowe są kodowane kolorami wskazującymi na wsparcie przez jedną (jasnoniebieski) lub wiele komórek (ciemnoniebieski). Przypadki, w których dowody oparte są tylko na Pool100 są również zaznaczone kolorem jasnoniebieskim. Geny PAR i lncRNA są zaznaczone. Dane źródłowe znajdują się w pliku dodatkowym 6: Tabela S5

Rysunek 6b zawiera listę wszystkich 15 zidentyfikowanych genów lncRNA uciekinierów, wśród których są geny ncRNA z XIC, które koordynują aktywację i utrzymanie inaktywacji X. Wiele z lncRNA jest zlokalizowanych w segmentach aktywnych transkrypcyjnie (np. w obrębie PAR lub XIC), podczas gdy inne są zlokalizowane w regionach niezachowanych, które są wzbogacone o długie i krótkie ncRNA. Dla dodatkowych lncRNA, w tym inaktywowanych genów zobacz plik dodatkowy 7: Tabela S6.

Evidence-based partition of escapee genes

Rysunek 6c podsumowuje podział według dowodów dla wszystkich genów, które są zgłaszane z dowolnym poziomem ufności jako geny ucieczki (plik dodatkowy 6: Tabela S5). Ta lista obejmuje 75 kandydatów, którzy zostali zgłoszeni w tym badaniu, w tym dowody z Pool100, kolekcji nowych lncRNA. Figura 6d przedstawia szczegółową listę znalezisk z tych danych w świetle serval zasobów zewnętrznych. Liczba komórek dostarczających dowody jest również wskazana dla każdego genu.

Biorąc pod uwagę te zewnętrzne zasoby, dopasowaliśmy każdy gen zgodnie z jakością niezależnego wsparcia związanego z nim (ryc. 6c i d). Konkretnie, podzieliliśmy listę 75 genów na cztery grupy: (i) Geny są oznaczone jako „potwierdzone”, jeśli są zgłaszane jako ucieczki przez oba wcześniej omówione zasoby zewnętrzne . Jest 31 takich genów, dla których niniejsze badanie dostarcza dalszego potwierdzenia ich tożsamości jako uciekinierów. (ii) Dodatkowe 7 genów jest oznaczonych jako „zatwierdzone”. Geny te są oznaczone jako uciekinierów tylko przez jedno z dwóch zewnętrznych źródeł . W przypadku tych genów niezależne dowody z tego badania zatwierdzają ich tożsamość. (iii) Dodatkowe 12 genów oznaczono jako „prawdopodobne” geny ucieczki. Geny te są przypisane zgodnie z porozumieniem z dodatkowym raportem zewnętrznym zgłaszającym 114 uciekinierów , który nie został uwzględniony w katalogu opartym na literaturze , a zatem może być uważany za niezależne źródło. (iv) Dodatkowe 25 genów jest oznaczonych jako „możliwe” ucieczki. Geny te nie posiadają żadnych dowodów literaturowych potwierdzających ich tożsamość, stąd ich przypisanie jako uciekinierów pozostaje mniej poparte. Wśród nich 5 genów jest wspieranych tylko z komórki odstającej z limfoblastu, a więc prawdopodobnie są fałszywe. W tym zestawie znajduje się dodatkowo 10 genów, które nie zostały zgłoszone przez żadne z trzech omawianych zasobów zewnętrznych. Większość przeoczonych lncRNA należy do tej grupy. Dwa z tych przeoczonych uciekających lncRNA (TCONS_00017125, i TCONS_00017281, Rys. 6b) zlokalizowane są w regionie PAR, który jest wyjątkowo aktywny w transkrypcji biallelicznej. Dane źródłowe dla ryc. 6d znajdują się w pliku dodatkowym 6: Tabela S5.

.

admin

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

lg