Uma estrutura para medir o escape da ativação X em células únicas

Nós identificamos os escapados analisando a expressão gênica de células somáticas únicas usando a metodologia scRNA-Seq (ver Métodos). Para avaliar a sensibilidade do método, comparamos a expressão dos cromossomas X (ChrX) com outros cromossomas autossómicos. Especificamente, focalizamos o cromossomo 17 (Chr17) como um protótipo de um cromossomo autossômico. Chr17 foi selecionado por representar um cromossomo com um número mínimo de genes impressos específicos dos pais. As propriedades quantitativas de ChrX e Chr17 estão listadas na Fig. 1a.

Fig. 1

Fluxo de trabalho para a identificação de genes escape de células únicas. a Propriedades quantitativas de ChrX e Chr17 estão listadas de acordo com GRCh37 (GRC Human Build 37). b Um esquema para a análise de fibroblastos primários de células únicas. As duas cores para os núcleos representam a escolha aleatória do Xa. No contexto dos fibroblastos, cada Xa exibe um padrão de expressão diferente para os hSNPs. Cada um dos iSNPs pode ser atribuído ao alelo de referência (R) ou ao alelo alternativo (A). Se uma célula com um Xa terá um padrão de expressão de A R A, uma célula com o Xa alternativo expressará R A R. Devido à inativação aleatória do X, e os hSNPs não sendo faseados, anunciar um gene como um escape é inteiramente baseado em ter múltiplas evidências de iSNPs com expressão bialleica. A tabela ilustrativa mostra a análise dos iSNPs de cada um dos hSNPs (à esquerda) em cada uma das células como A ou R e a anotação de um gene de acordo com o acúmulo das evidências dos iSNPs. A ilustração marca hSNPs derivados de 4 células isoladas (célula-1 a célula-4). Os hSNPs estão associados a 3 genes (marcados como gene a ao gene c). O gene a é o único gene com múltiplas iSNPs bialleicas, portanto é anotado como gene Escapee (Esc). Os outros dois genes ou não possuem iSNPs bialleicos (gene b) ou possuem apenas um único iSNP como evidência para expressão bialleica (gene c) e assim são anotados como gene Inactivated (Ina). c O esquema para os linfoblastos clonais de células únicas. Em contraste com os fibroblastos primários (b), a origem parental do Xa é idêntica para todas as células. Neste caso, a linha celular GM12878 Xa está associada ao alelo materno (M) (simbolizado por núcleos de cor rosa). Para linfoblastos, a ocorrência de um alelo paterno (marcado como P) é suficiente a identificação de um iSNP sendo expresso a partir de Xi e, portanto, pode ser potencialmente anotado como um fugitivo. A tabela da direita enfatiza a atribuição de escape de linfoblastos. As categorias da tabela são as mesmas que em (b). Para detalhes sobre o workflow e os protocolos aplicados, veja o arquivo adicional 1: Texto e Figura S1

Este estudo é baseado na análise de dois recursos de origem feminina: (i) Fibroblastos primários UCF1014 (com 104 células, ver Métodos). Este conjunto é especificado por um dado transcriptômico de maior cobertura, mas carece de informações sobre o faseamento do haplótipo (Fig. 1b); (ii) Um conjunto de dados menor de linfoblastos clonais (n = 25) da linha celular GM12878 com genomas diplóides parentais totalmente faseados e sequenciados (Fig. 1c). Em ambos os conjuntos de dados, a transcrição em SNPs heterozigotos (hSNPs) é a fonte de informação para determinar a expressão monoalélica ou bialélica. Cada hSNP, em cada célula, que é suportado por evidência de expressão acima de um limiar pré-determinado é considerado um SNP informativo (iSNP) (ver Métodos, arquivo adicional 1: Texto). A soma de iSNPs por gene define seu rótulo único como gene inativado ou escapee (ver Métodos, Fig. 1b-c, arquivo adicional 1: Texto).

Quantificando a expressão bialleica de fibroblastos primários de uma célula

Analisamos os dados scRNA-Seq publicados de fibroblastos humanos primários femininos . Antes da análise, nós cuidamos de uma armadilha experimental relevante para muitos estudos com células únicas. A armadilha diz respeito à duplicação celular, na qual mais de uma célula é sequenciada por uma biblioteca. Em tal cenário, diferentes cromossomos X ativos (Xa) de duas células diferentes que estão incluídas na amostra produzirão um sinal bialélico ao longo de todo o cromossomo X. Embora se espere que a fração de doublets seja pequena, isso pode levar a uma interpretação errada . Portanto, antes de analisar os dados dos fibroblastos, revisitamos todos os 104 fibroblastos e testamos sua relação bialélica em relação ao ChrX (ver Métodos). Três células mostraram um grau excepcionalmente alto de expressão bialélica que pode indicar uma mistura de dois cromossomos X parentais (arquivo adicional 1: Texto e Figura S3). Removemos todas as três células suspeitas de todas as análises.

Next, para cada célula, contamos o número de leituras que foram mapeadas de forma única para os alelos hSNP. A razão alélica (AR) para cada iSNP é definida como a fração das leituras mapeadas para o alelo alternativo (Alt) do total de leituras (ver Métodos, arquivo adicional 2: Tabela S1). A Figura 2a-c resume a RA de ChrX, Chr17, e todos os cromossomos autossômicos de acordo com a coleta de fibroblastos primários (101 de 104 células). Além disso, a Figura 2d mostra a distribuição do RA de um conjunto anotado de genes impressos dos tecidos cutâneos (de acordo com ). Como relatado anteriormente, um viés no mapeamento para o genoma de referência (RA = 0) é evidente (Fig. 2a-d). Adicionalmente, uma fração substancial da expressão monoalélica foi observada para todos os conjuntos testados (Fig. 2a-d). Esta aparência dominante da expressão monoalélica em células únicas é causada por uma combinação de ambas sub-amostragens de transcrições, e um fenômeno que é conhecido como “transcriptional bursting” .

Fig. 2

A distribuição da razão alélica (RA) para cada SNP como uma fração das atribuições para os alelos Alternativa (Alt) fora dos alelos Alt e Referência (Ref). O eixo X nos histogramas superiores varia de 0 a 1,0, onde 0 indica que todas as atribuições estão associadas ao alelo Ref e 1 indica todas as atribuições para o alelo Alt. Como a maioria dos iSNPs são atribuídos com valores AR de 0 ou 1, cada análise é mostrada por dois histogramas. O histograma inferior focaliza os iSNPs não-monoalélicos e cobre todos os valores de RA excluindo o RA = 0 e RA = 1. A percentagem de iSNPs que estão incluídos nos histogramas inferiores é mostrada. As distribuições do RA são mostradas para Chr17 (a), Cromossomos Autossômicos (b), ChrX (c) e genes impressos (d). Para dados da fonte, veja o arquivo adicional 3: Tabela S2

Focamos apenas nos iSNPs que mostram uma assinatura não-monoalélica (ou seja, excluindo AR = 0 e AR = 1). Observamos uma marcada diferença na distribuição do RA do ChrX e genes impressos em relação ao Chr17 e todos os cromossomos autossômicos (compare Fig. 2a com b e Fig. 2c com d). Assim, várias observações dos resultados mostrados na Fig. 2 podem ser extraídas: (i) Chr17 e todos os cromossomos autossômicos compartilham um perfil AR similar. (ii) Uma clara tendência para expressão equilibrada (RA = 0,5) é aparente para qualquer cromossomo autossômico (Fig. 2a-b), mas não ChrX ou genes impressos (Fig. 2c-d). (iii) A fração de expressão não-monoalélica em cromossomos autossômicos é maior (~ 18%) em relação ao ChrX (~ 9%). (iv) A fração de expressão não-monoalélica nos genes impressos mostra um nível intermediário (13%). Tal nível intermediário é provavelmente um reflexo da inconsistência inerente na identidade dos genes impressos. Arquivo adicional 3: A Tabela S2 lista os iSNPs de suporte para todos os cromossomos analisados nos fibroblastos, incluindo o conjunto de genes impressos.

Identificação de escape em fibroblastos primários de célula única

No conjunto de dados dos fibroblastos primários, existem 232 e 485 genes que são suportados pelas evidências dos iSNPs para ChrX e Chr17, respectivamente. Como estas células não têm informação de faseamento do genoma (Fig. 1b), a informação sobre a fuga do cromossoma X é limitada ao conjunto de iSNPs bialleicos (ver Fig. 1b). Nós agregamos os iSNPs de acordo com seus genes correspondentes (Fig. 1b). A agregação é feita através de diferentes células individuais e através de múltiplos iSNPs dentro de um par célula-gene específico. Um gene será rotulado como candidato a escape quando for associado a múltiplos iSNPs bialleicos. No total, identificamos 24 desses genes (Tabela 1) que representam 10,3% de todos os genes expressos em ChrX. Como esperado, a fração de genes no Chr17 mostrando expressão bialleica é substancialmente maior (49,3%, arquivo adicional 4: Tabela S3).

Table 1 Escapees from 101 primary single cell fibroblasts. Uma lista completa de todos os genes está disponível no arquivo adicional 3: Tabela S4

Tabela 1 lista os candidatos a escapar em diferentes graus de suporte. Por exemplo, os genes ZFX (Zinc finger X-chromosomal protein) e SMC1A (Structural maintenance of chromosomes protein 1A) são fortemente suportados com 103 e 19 iSNPs bialleicos, respectivamente. Um aumento adicional na confiabilidade de identificação de escape é baseado em ter pelo menos 2 células independentes que contribuíram com informações sobre a expressão bialleica. Mostramos que 21 dos 24 genes preencheram este critério rigoroso (Tabela 1). Notavelmente, entre os escapados identificados, detectamos apenas três genes PAR (SLC25A6, CD99, e DHRSX, Tabela 1). A atribuição destes genes como fugitivos concorda com a expressão RAP esperada. A partir do número de genes RAP bialélicos dos genes RAP expressos, estimamos que a taxa de descoberta de falsos negativos para os fugitivos seja de até 70% (ou seja, 7 dos 10 genes RAP expressos falhados). Arquivo adicional 4: A Tabela S3 mostra o suporte para a Tabela 1.

Quantificando a expressão alélica dos linfoblastos clonais em fase

Uma grande limitação no protocolo descrito acima diz respeito à falta de faseamento do haplótipo parental. Sob esta configuração, os iSNPs não podem ser atribuídos a Xa ou Xi. Consequentemente, a escolha aleatória de Xi que caracteriza as células primárias limita a taxa de descoberta para os fugitivos. Expandimos a análise do scRNA-Seq para linfoblastos de origem feminina a partir da linha de células clonais GM12878 . Veja a Fig. 1c e o arquivo adicional 1: Figura S4.

Figure 3a mostra o perfil de expressão para linfoblastos clonais de células simples (n = 25) (arquivo adicional 2: Tabela S1, arquivo adicional 5: Tabela S4). Em qualquer célula individual, a expressão monoalélica reflete a combinação de uma sub-amostragem de transcrições e o fenômeno de estouro transcripcional . É claro que a expressão materna do Xa domina (Fig. 3a, topo). Uma observação que concorda com a origem materna Xa relatada da linha celular GM12878 . Na maioria das células analisadas, uma pequena, mas substancial fração da expressão total medida é do cromossomo Xi paterno (Fig. 3a, topo). Em contraste, Chr17 e os cromossomos autossômicos mostram uma expressão igual de ambos os alelos (Fig. 3a, painéis médio e inferior).

Fig. 3

Quantificar as etiquetas dos iSNPs a partir de 25 linfoblastos de células únicas. a Cada célula é dividida de acordo com seus iSNPs alélicos marcados em ChrX, Chr17, e todos os cromossomos autossômicos. Os iSNPs são associados com expressão materna (rosa), paterna (azul claro) e equilibrada (cinza). As células são ordenadas da esquerda para a direita de acordo com suas contribuições iSNP (arquivo adicional 1: Figura S4). À direita, é mostrado o resumo estatístico do Pool100. b Um resumo da partição das tags iSNPs para todas as 25 células individuais nos cromossomos ChrX, Chr17 e autossômicos. c Um resumo da partição das tags iSNPs para o Pool100. As cores azul e rosa estão associadas aos alelos paterno e materno, respectivamente. O padrão listrado indica iSNPs bialleicos inclinados para os alelos paterno (azul) ou materno (rosa). Para células simples, os dados são baseados em 375 iSNPs para ChrX, 808 iSNPs para Chr17 e 20.212 iSNPs para cromossomos autossômicos. Os dados do Pool100 são baseados em 211 iSNPs para ChrX, 216 para Chr17 e 5360 iSNPs para cromossomos autossômicos. Para os dados da fonte veja o arquivo adicional 5: Tabela S4

Da figura, é evidente que o fenômeno de explosão transcripcional afeta todos os cromossomos incluindo o ChrX. Para avaliar o impacto deste fenômeno na identificação de genes como escape, comparamos células únicas com respeito a um conjunto de células (Pool100, Fig. 3a, barra direita). Enquanto a maioria dos iSNPs do Chr17 exibe perfis bialélicos, ChrX permanece dominado por uma expressão monoalélica materna.

Figure 3b é uma visão agregada de ChrX, Chr17 e os cromossomos autossômicos. Os dados são baseados em 375, 808 e 20.212 hSNPs expressos, respectivamente. A Figura 3b (painéis médio e direito) mostra uma divisão igual dos alelos parentais do Chr17 e dos cromossomos autossômicos (Fig. 3b, superior). Realizando a mesma análise dos dados coletados do Pool100 (Fig. 3c) mostra que a partição dos alelos parentais permanece praticamente inalterada (compare a fração ocupada pelas cores rosa e azul, Fig. 3b-c). Além disso, observamos uma mudança de uma expressão monoalélica (Fig. 3b-c, cor preenchida) para uma expressão bialélica (Fig. 3b-c, cor descascada). A fração da expressão bialélica para o Ch17 aumentou de 19% em células simples para 80% em Pool100, e para cromossomos autossômicos de 18 a 79% (Fig. 3c, painéis médio e direito). Os resultados de Pool100 indicam que a expressão monoalélica observada em células isoladas é praticamente abolida pela média do sinal.

Os resultados de ChrX (Fig. 3b (esquerda) são fundamentalmente diferentes em relação ao Chr17 ou aos cromossomos autossômicos (Fig. 3b-c). A diferença mais notável é que apenas 21% dos iSNPs expressos estão associados ao alelo Xi paterno no ChrX (Fig. 3b, topo). Além disso, na análise do Pool100, a fração de expressão bialélica permanece limitada (uma mudança de 9% em células únicas para 34% no Pool100). O padrão observado de ChrX do Pool100 (Fig. 3c, esquerda) é melhor explicado por uma média do sinal monoalélico estocástico (no mesmo grau dos outros cromossomos) enquanto mantém um sinal forte da expressão monoalélica Xa. Ver arquivo adicional 5: Tabela S4 para relação alélica dos linfoblastos de todos os cromossomos testados e do Pool100.

Identificação de escape de linfoblastos de células únicas

Figure 4a é uma visão gene-cêntrica que mostra a partição alélica do iSNP dos linfoblastos (colorida de acordo com sua origem como expressão materna, paterna ou mista, ver Métodos). Apenas o subconjunto de genes que são suportados por múltiplos iSNPs é listado de acordo com a sua ordem ao longo dos cromossomas. Ao todo relatamos 93 genes anotados no ChrX (Fig. 4a, 30 genes fugidos e 63 genes inativados). Note que os genes ativados por X são responsáveis por genes que são expressos principalmente a partir do Xa materno. Um conjunto de genes com expressão paterna na ponta do ChrX p-arm representa a expressão bialélica esperada dos genes PAR (Fig. 4a). Evidências adicionais para expressão paterna são localizadas para o XIC com genes como XIST, JPX, e FTX. Enquanto a maioria dos fugitivos é suportada por um número limitado de iSNPs, alguns deles como ZFX, CD99 e SLC25A6 são suportados por um número relativamente grande de iSNPs de suporte (48, 38 e 34, respectivamente).

Fig. 4

Uma partição gene-cêntrica de alelos de células linfoblastadas. a Para cada gene no ChrX, a partição parental dos iSNPs é mostrada juntamente com o número de iSNPs. Para maior clareza, apenas os genes que são suportados por > = 2 iSNPS são listados. Um total de 93 genes no ChrX são listados pela sua ordem no cromossoma. O código de cor está de acordo com os rótulos iSNP como expressão paterna, materna e equilibrada. Para os dados da fonte, veja o arquivo adicional 5: Tabela S4. b-c Correlação entre os níveis de expressão dos alelos paterno e materno. Os gráficos de dispersão mostram os níveis de expressão dos genes pelo número de leituras associadas aos alelos materno (eixo x) e paterno (eixo y). O número de genes analisados para cada gráfico de dispersão é indicado (no eixo x, entre parênteses). Os dados mostrados são de Chr17 (b) e ChrX (c) baseados em células únicas e Pool100. Observe que o número de leituras para os dados do Pool100 é 10 vezes menor em relação aos dados cumulativos extraídos de células únicas. Para os dados de origem, veja o arquivo adicional 4: Tabela S3

Um método alternativo para avaliar a extensão do fenômeno de inativação X é quantificar a evidência diretamente da soma de todas as leituras sequenciadas (abreviado como o protocolo baseado em leitura). Figura 4b-c compara contagens lidas de Chr17 (Fig. 4b) e ChrX (Fig. 4c) pela origem paterna versus maternal. Comparamos os dados de expressão das células individuais e do Pool100. A regressão linear para a expressão gênica do Chr17 mostra uma linha de ajuste de alta correlação (r2 = 0,823, Fig. 4b). Como esperado, a correlação é mais forte nos dados originados do Pool100 (r2 = 0,946, Fig. 4b). Concluímos que, apesar da expressão monoalélica devido ao fenômeno de estouro transcripcional, a expressão alélica equilibrada de todos os genes é fortemente suportada. Para ChrX entretanto, a regressão linear resultante das células únicas é pobre (r2 = 0,238, Fig. 4c), e não foi melhorada pelos dados do Pool100 (r2 = 0,222, Fig. 4d). A inspeção dos dados da expressão ChrX mostra que as linhas de regressão realmente se inclinam para a expressão Xa materna (eixo x). Os dados da expressão são consistentes com duas linhas de regressão distintas para ChrX. Uma que corresponde aos genes inativados (paralela ao eixo x), e a outra corresponde a uma expressão tridimensionalmente bialleica.

Aplicar o protocolo conservador baseado no iSNP leva à identificação de 30 genes como candidatos a fuga que também são suportados pelo protocolo baseado na leitura (Tabela 2). O baseado em leitura (i.e, rotulando um gene como escapee por ter um número mínimo de leituras paternais, veja Métodos) expandiu a lista de candidatos a escapee para incluir 49 genes no total (arquivo adicional 4: Tabela S3).

Table 2 Escapees from 25 clonal single cell lymphoblasts

Testar a origem dos alelos ao longo de um gene na mesma célula é um teste rigoroso para a confiabilidade dos iSNPs. Este teste só é válido para genes com múltiplos hSNPs. Tais genes que são suportados com dois ou mais hSNPs expressando hSNPs respondem por 44% dos genes. Consideramos um gene consistente se a expressão ao longo do gene em uma célula específica não for monoalélica para ambos os alelos. Ao todo, identificamos 3 genes inconsistentes – TEX11, FTX, e ZCCHC16. Para outros 6 genes, a inconsistência é apenas parcial, já que existem outras observações de expressão bialleica. A estimativa da inconsistência total (3 dos 29 genes elegíveis para este teste) sugere que um limite superior para uma interpretação defeituosa de 10%. Além disso, o protocolo baseado no iSNP identificou 9 dos 11 genes PAR expressos. Assim, extrapolamos a taxa de detecção de fugas para ser de 82%. Curiosamente, a análise de Chr17, sob a suposição de que não há viés alélico sistemático, mostrou que 7,3 e 9,6% dos genes estavam associados à expressão monoalélica materna e paterna, respectivamente. Esses resultados fornecem um limite superior de 17,9% para a probabilidade de falsa rotulagem de genes no Chr17 e podem ser usados para estimar a limitação do método.

A evidência paterna exigente de pelo menos duas células reduz o número de fugitivos de 49 para 18 (incluindo 5 genes PAR). Muitos genes de evidência única resultantes de uma célula externa específica (SRR764803) que contribuíram para 17 dos 49 genes relatados (Tabela 2, Arquivo adicional 5: Tabela S4). Esta célula exibe os maiores níveis de expressão tanto no ChrX como no Chr17 (arquivo adicional 1: Texto e Figura S4). A Tabela 2 lista os candidatos a fuga descobertos juntamente com suas evidências de suporte (Tabela 2).

Comparação dos fugitivos identificados ao conhecimento atual

Testes a correspondência entre os fugitivos identificados de nosso estudo e um catálogo baseado em literatura . Este catálogo unificado foi compilado a partir da integração de quatro estudos independentes que abrangem 1144 genes do ChrX. Os genes deste catálogo são divididos manualmente em nove categorias definidas (ver Métodos). A maior delas é a dos genes que carecem de informação (45%) . Cerca de 15% dos genes (168/1144) são considerados ‘escape-associados’ (ver Métodos). Consideramos o conjunto compilado de genes ‘escape-associados’ como um padrão de ouro para testar a taxa de descoberta de escapee em nosso estudo (total de 124 genes, genes PAR excluídos, coletivamente chamados Balaton-Esc).

Aplicamos um teste estatístico hipergeométrico (ver Métodos) para avaliar a sobreposição das diferentes listas de genes escapee (Fig. 5). A Figura 5a mostra o número de escape identificados dos fibroblastos e linfoblastos (excluindo os genes PAR). Note que somente os genes que estão incluídos no benchmark Balaton-Esc estão incluídos nesta análise (Fig. 5). A Figura 5b mostra o significado estatístico da sobreposição entre as listas de genes da Fig. 5a e do Balaton-Esc . Como pode ser visto, há uma sobreposição significativa entre os escapados dos linfoblastos (Tabela 2 e arquivo adicional 4: Tabela S3) e a lista de Balaton Esc (Fig. 5b, p = 7,43E-8). A aplicação do mesmo teste para os fibroblastos primários (Tabela 1) resultou em uma significância menor (p=0,07E-2).

Fig. 5

Evados identificados e significância estatística da sobreposição com o catálogo baseado na literatura compilado por Balaton et al. a Os números de escape identificados por cada uma das análises. Os números incluem apenas os genes presentes em Balaton et al. e excluem os genes PAR. b Análise estatística baseada na distribuição hipergeométrica que mede a sobreposição entre a lista baseada na literatura como apresentada por Balaton et al. e o escape atribuído neste estudo (como em (a)). O eixo Y é o -log10(x) do valor p calculado. c Diagrama Venn dos 4 conjuntos de fugitivos de acordo com os fibroblastos e linfoblastos analisados, a coleção Balaton-Esc , e a coleção Tukiainen-Esc . Incluindo o PAR. Para detalhes veja o texto. Dados originais no arquivo adicional 6: Tabela S5

Figure 5c mostra os genes de sobreposição entre os fugitivos identificados em nosso estudo e o catálogo Balaton-Esc (168 genes incluindo os genes PAR) . Também incluímos um recurso complementar baseado em 940 transcriptomas do scRNA-Seq (25 genes escapee, Tukiainen-Esc) . O diagrama Venn mostra que cada um dos estudos acima contribui para o conhecimento atual sobre os fugitivos. Escapees from the two external resources overlap by 18 out of 25 reported genes (72%). Como mostrado na Fig. 5c, 62% dos fugitivos relatados dos linfoblastos se sobrepõem às listas de fugitivos externos, enquanto os fibroblastos são suportados por apenas 38% de sobreposição. Notavelmente, a maioria dos nossos candidatos a escapee genes descobertos de fibroblastos (62%) não tem correspondência com as outras listas testadas (arquivo adicional 6: Tabela S5).

LncRNAs estendemos a lista de candidatos a escapee

Estendemos nossa análise para RNAs longos não codificadores (lncRNAs) usando os mesmos critérios de escapee usados a partir dos genes codificadores (Fig. 6). Ao todo identificamos 15 lncRNAs como candidatos a escape, entre eles apenas alguns foram previamente estudados. A localização dos lncRNAs e das fugas de codificação ao longo do ChrX é mostrada (Fig. 6a). Nós testamos as posições dos fugitivos ao longo do ChrX em relação a todos os genes ChrX. Enquanto a distribuição posicional para os escapados lncRNA é similar (teste de Kolmogorov-Smirnov, valor de p = 0,57), é diferente para a codificação dos escapados (teste de Kolmogorov-Smirnov, valor de p = 0,004, Fig. 6a).

Fig. 6

LncRNAs designados como fugitivos, e os grupos de fugitivos de acordo com o seu nível de confiança. a A dispersão dos fugitivos ao longo do ChrX. Os fugitivos pertencem aos lncRNAs e aos genes codificadores são indicados acima e abaixo dos esquemas do ChrX, respectivamente. b Uma tabela listando os 15 candidatos a fugitivos lncRNA. A cor laranja indica o escapee e o cinza inativado. Uma atribuição que é baseada em um único iSNP é rotulada com laranja claro. O branco indica falta de relatório ou nenhuma expressão. XIC, região do centro de inativação X. c Partição dos 75 genes que foram mencionados como candidatos a fugitivos neste estudo. As categorias são rotuladas como ‘confirmado’, ‘aprovado’, ‘provável’ e ‘possível’ (ver texto). Os dois recursos externos que são usados para definir os grupos são da literatura e de uma única célula por . Para um grupo de fugitivos ‘prováveis’, usamos a anotação do fugitivo como evidência. Note que 11 dos 15 genes lncRNA listados estão incluídos no conjunto ‘possível’ de escape. d Um resumo dos grupos baseados em evidências para 75 genes. Os genes são classificados de acordo com os 4 grupos de evidência (como em c) Os fugitivos são de cor laranja. O laranja claro indica os fugitivos que são suportados por uma única evidência de uma célula apenas em fibroblastos. Os genes inativos são de cor cinza. A cor branca indica ausência de expressão ou falta de relatório. A evidência celular é codificada por cores mostrando suporte por uma (azul claro) ou múltiplas células (azul escuro). Casos em que a evidência é baseada apenas no Pool100 também são marcados com azul claro. Os genes PAR e lncRNAs são marcados. Os dados da fonte estão no arquivo adicional 6: Tabela S5

Figure 6b lista todos os 15 genes de escape lncRNA identificados, entre eles, são genes ncRNA do XIC que coordenam a ativação e manutenção da ativação X. Muitos dos lncRNAs estão localizados em segmentos transcritivamente ativos (por exemplo, dentro do PAR ou do XIC), enquanto outros estão localizados em regiões não-conservadas que são enriquecidas com ncRNAs longos e curtos. Para lncRNAs adicionais, incluindo genes inativados veja o arquivo adicional 7: Tabela S6.

Partição baseada navidência dos genes de escape

Figure 6c resume a partição de acordo com as evidências para todos os genes que são relatados com quaisquer níveis de confiança como escape (arquivo adicional 6: Tabela S5). Esta lista inclui 75 candidatos que são relatados neste estudo, incluindo evidências do Pool100, uma coleção de novos lncRNAs. A Figura 6d fornece uma lista detalhada da descoberta a partir destes dados em vista dos recursos externos serval. O número de células que fornecem evidência também é indicado para cada gene.

Ao levar em conta esses recursos externos, nós combinamos cada gene de acordo com a qualidade do suporte independente associado a ele (Fig. 6c e d). Especificamente, dividimos a lista dos 75 genes em quatro grupos: (i) Os genes são rotulados como “confirmados” se forem reportados como fugitivos por ambos os recursos externos previamente discutidos. Existem 31 genes deste tipo, para os quais este estudo fornece mais uma confirmação para a sua identidade como fugitivos. (ii) 7 genes adicionais são rotulados como “aprovados”. Estes genes são rotulados como fugitivos por apenas um dos dois recursos externos . Para estes genes, a evidência independente deste estudo aprova a sua identidade. (iii) 12 genes adicionais são marcados como “prováveis” fugitivos. Estes genes são atribuídos de acordo com a concordância com um relatório externo adicional relatando 114 fugitivos , que não foi incluído no catálogo baseado na literatura , e assim pode ser considerado como um recurso independente. (iv) 25 genes adicionais são marcados como “possíveis” fugitivos. Estes genes carecem de qualquer evidência bibliográfica que sustente sua identidade, portanto, sua designação como fugitivos permanece menos suportada. Entre eles, 5 genes são suportados apenas a partir da célula externa do linfoblasto e, portanto, provavelmente são falsos. Neste conjunto, há mais 10 genes que não foram relatados por nenhum dos três recursos externos discutidos , A maioria dos lncRNAs ignorados pertencem a este grupo. Dois destes lncRNAs esquecidos (TCONS_00017125, e TCONS_00017281, Fig. 6b) estão localizados na região do PAR que é excepcionalmente ativa na transcrição bialleica. Os dados de origem para a Fig. 6d estão no arquivo adicional 6: Tabela S5.

admin

Deixe uma resposta

O seu endereço de email não será publicado.

lg