- Uma estrutura para medir o escape da ativação X em células únicas
- Quantificando a expressão bialleica de fibroblastos primários de uma célula
- Identificação de escape em fibroblastos primários de célula única
- Quantificando a expressão alélica dos linfoblastos clonais em fase
- Identificação de escape de linfoblastos de células únicas
- Comparação dos fugitivos identificados ao conhecimento atual
- LncRNAs estendemos a lista de candidatos a escapee
- Partição baseada navidência dos genes de escape
Uma estrutura para medir o escape da ativação X em células únicas
Nós identificamos os escapados analisando a expressão gênica de células somáticas únicas usando a metodologia scRNA-Seq (ver Métodos). Para avaliar a sensibilidade do método, comparamos a expressão dos cromossomas X (ChrX) com outros cromossomas autossómicos. Especificamente, focalizamos o cromossomo 17 (Chr17) como um protótipo de um cromossomo autossômico. Chr17 foi selecionado por representar um cromossomo com um número mínimo de genes impressos específicos dos pais. As propriedades quantitativas de ChrX e Chr17 estão listadas na Fig. 1a.
Este estudo é baseado na análise de dois recursos de origem feminina: (i) Fibroblastos primários UCF1014 (com 104 células, ver Métodos). Este conjunto é especificado por um dado transcriptômico de maior cobertura, mas carece de informações sobre o faseamento do haplótipo (Fig. 1b); (ii) Um conjunto de dados menor de linfoblastos clonais (n = 25) da linha celular GM12878 com genomas diplóides parentais totalmente faseados e sequenciados (Fig. 1c). Em ambos os conjuntos de dados, a transcrição em SNPs heterozigotos (hSNPs) é a fonte de informação para determinar a expressão monoalélica ou bialélica. Cada hSNP, em cada célula, que é suportado por evidência de expressão acima de um limiar pré-determinado é considerado um SNP informativo (iSNP) (ver Métodos, arquivo adicional 1: Texto). A soma de iSNPs por gene define seu rótulo único como gene inativado ou escapee (ver Métodos, Fig. 1b-c, arquivo adicional 1: Texto).
Quantificando a expressão bialleica de fibroblastos primários de uma célula
Analisamos os dados scRNA-Seq publicados de fibroblastos humanos primários femininos . Antes da análise, nós cuidamos de uma armadilha experimental relevante para muitos estudos com células únicas. A armadilha diz respeito à duplicação celular, na qual mais de uma célula é sequenciada por uma biblioteca. Em tal cenário, diferentes cromossomos X ativos (Xa) de duas células diferentes que estão incluídas na amostra produzirão um sinal bialélico ao longo de todo o cromossomo X. Embora se espere que a fração de doublets seja pequena, isso pode levar a uma interpretação errada . Portanto, antes de analisar os dados dos fibroblastos, revisitamos todos os 104 fibroblastos e testamos sua relação bialélica em relação ao ChrX (ver Métodos). Três células mostraram um grau excepcionalmente alto de expressão bialélica que pode indicar uma mistura de dois cromossomos X parentais (arquivo adicional 1: Texto e Figura S3). Removemos todas as três células suspeitas de todas as análises.
Next, para cada célula, contamos o número de leituras que foram mapeadas de forma única para os alelos hSNP. A razão alélica (AR) para cada iSNP é definida como a fração das leituras mapeadas para o alelo alternativo (Alt) do total de leituras (ver Métodos, arquivo adicional 2: Tabela S1). A Figura 2a-c resume a RA de ChrX, Chr17, e todos os cromossomos autossômicos de acordo com a coleta de fibroblastos primários (101 de 104 células). Além disso, a Figura 2d mostra a distribuição do RA de um conjunto anotado de genes impressos dos tecidos cutâneos (de acordo com ). Como relatado anteriormente, um viés no mapeamento para o genoma de referência (RA = 0) é evidente (Fig. 2a-d). Adicionalmente, uma fração substancial da expressão monoalélica foi observada para todos os conjuntos testados (Fig. 2a-d). Esta aparência dominante da expressão monoalélica em células únicas é causada por uma combinação de ambas sub-amostragens de transcrições, e um fenômeno que é conhecido como “transcriptional bursting” .
Focamos apenas nos iSNPs que mostram uma assinatura não-monoalélica (ou seja, excluindo AR = 0 e AR = 1). Observamos uma marcada diferença na distribuição do RA do ChrX e genes impressos em relação ao Chr17 e todos os cromossomos autossômicos (compare Fig. 2a com b e Fig. 2c com d). Assim, várias observações dos resultados mostrados na Fig. 2 podem ser extraídas: (i) Chr17 e todos os cromossomos autossômicos compartilham um perfil AR similar. (ii) Uma clara tendência para expressão equilibrada (RA = 0,5) é aparente para qualquer cromossomo autossômico (Fig. 2a-b), mas não ChrX ou genes impressos (Fig. 2c-d). (iii) A fração de expressão não-monoalélica em cromossomos autossômicos é maior (~ 18%) em relação ao ChrX (~ 9%). (iv) A fração de expressão não-monoalélica nos genes impressos mostra um nível intermediário (13%). Tal nível intermediário é provavelmente um reflexo da inconsistência inerente na identidade dos genes impressos. Arquivo adicional 3: A Tabela S2 lista os iSNPs de suporte para todos os cromossomos analisados nos fibroblastos, incluindo o conjunto de genes impressos.
Identificação de escape em fibroblastos primários de célula única
No conjunto de dados dos fibroblastos primários, existem 232 e 485 genes que são suportados pelas evidências dos iSNPs para ChrX e Chr17, respectivamente. Como estas células não têm informação de faseamento do genoma (Fig. 1b), a informação sobre a fuga do cromossoma X é limitada ao conjunto de iSNPs bialleicos (ver Fig. 1b). Nós agregamos os iSNPs de acordo com seus genes correspondentes (Fig. 1b). A agregação é feita através de diferentes células individuais e através de múltiplos iSNPs dentro de um par célula-gene específico. Um gene será rotulado como candidato a escape quando for associado a múltiplos iSNPs bialleicos. No total, identificamos 24 desses genes (Tabela 1) que representam 10,3% de todos os genes expressos em ChrX. Como esperado, a fração de genes no Chr17 mostrando expressão bialleica é substancialmente maior (49,3%, arquivo adicional 4: Tabela S3).
Tabela 1 lista os candidatos a escapar em diferentes graus de suporte. Por exemplo, os genes ZFX (Zinc finger X-chromosomal protein) e SMC1A (Structural maintenance of chromosomes protein 1A) são fortemente suportados com 103 e 19 iSNPs bialleicos, respectivamente. Um aumento adicional na confiabilidade de identificação de escape é baseado em ter pelo menos 2 células independentes que contribuíram com informações sobre a expressão bialleica. Mostramos que 21 dos 24 genes preencheram este critério rigoroso (Tabela 1). Notavelmente, entre os escapados identificados, detectamos apenas três genes PAR (SLC25A6, CD99, e DHRSX, Tabela 1). A atribuição destes genes como fugitivos concorda com a expressão RAP esperada. A partir do número de genes RAP bialélicos dos genes RAP expressos, estimamos que a taxa de descoberta de falsos negativos para os fugitivos seja de até 70% (ou seja, 7 dos 10 genes RAP expressos falhados). Arquivo adicional 4: A Tabela S3 mostra o suporte para a Tabela 1.
Quantificando a expressão alélica dos linfoblastos clonais em fase
Uma grande limitação no protocolo descrito acima diz respeito à falta de faseamento do haplótipo parental. Sob esta configuração, os iSNPs não podem ser atribuídos a Xa ou Xi. Consequentemente, a escolha aleatória de Xi que caracteriza as células primárias limita a taxa de descoberta para os fugitivos. Expandimos a análise do scRNA-Seq para linfoblastos de origem feminina a partir da linha de células clonais GM12878 . Veja a Fig. 1c e o arquivo adicional 1: Figura S4.
Figure 3a mostra o perfil de expressão para linfoblastos clonais de células simples (n = 25) (arquivo adicional 2: Tabela S1, arquivo adicional 5: Tabela S4). Em qualquer célula individual, a expressão monoalélica reflete a combinação de uma sub-amostragem de transcrições e o fenômeno de estouro transcripcional . É claro que a expressão materna do Xa domina (Fig. 3a, topo). Uma observação que concorda com a origem materna Xa relatada da linha celular GM12878 . Na maioria das células analisadas, uma pequena, mas substancial fração da expressão total medida é do cromossomo Xi paterno (Fig. 3a, topo). Em contraste, Chr17 e os cromossomos autossômicos mostram uma expressão igual de ambos os alelos (Fig. 3a, painéis médio e inferior).
Da figura, é evidente que o fenômeno de explosão transcripcional afeta todos os cromossomos incluindo o ChrX. Para avaliar o impacto deste fenômeno na identificação de genes como escape, comparamos células únicas com respeito a um conjunto de células (Pool100, Fig. 3a, barra direita). Enquanto a maioria dos iSNPs do Chr17 exibe perfis bialélicos, ChrX permanece dominado por uma expressão monoalélica materna.
Figure 3b é uma visão agregada de ChrX, Chr17 e os cromossomos autossômicos. Os dados são baseados em 375, 808 e 20.212 hSNPs expressos, respectivamente. A Figura 3b (painéis médio e direito) mostra uma divisão igual dos alelos parentais do Chr17 e dos cromossomos autossômicos (Fig. 3b, superior). Realizando a mesma análise dos dados coletados do Pool100 (Fig. 3c) mostra que a partição dos alelos parentais permanece praticamente inalterada (compare a fração ocupada pelas cores rosa e azul, Fig. 3b-c). Além disso, observamos uma mudança de uma expressão monoalélica (Fig. 3b-c, cor preenchida) para uma expressão bialélica (Fig. 3b-c, cor descascada). A fração da expressão bialélica para o Ch17 aumentou de 19% em células simples para 80% em Pool100, e para cromossomos autossômicos de 18 a 79% (Fig. 3c, painéis médio e direito). Os resultados de Pool100 indicam que a expressão monoalélica observada em células isoladas é praticamente abolida pela média do sinal.
Os resultados de ChrX (Fig. 3b (esquerda) são fundamentalmente diferentes em relação ao Chr17 ou aos cromossomos autossômicos (Fig. 3b-c). A diferença mais notável é que apenas 21% dos iSNPs expressos estão associados ao alelo Xi paterno no ChrX (Fig. 3b, topo). Além disso, na análise do Pool100, a fração de expressão bialélica permanece limitada (uma mudança de 9% em células únicas para 34% no Pool100). O padrão observado de ChrX do Pool100 (Fig. 3c, esquerda) é melhor explicado por uma média do sinal monoalélico estocástico (no mesmo grau dos outros cromossomos) enquanto mantém um sinal forte da expressão monoalélica Xa. Ver arquivo adicional 5: Tabela S4 para relação alélica dos linfoblastos de todos os cromossomos testados e do Pool100.
Identificação de escape de linfoblastos de células únicas
Figure 4a é uma visão gene-cêntrica que mostra a partição alélica do iSNP dos linfoblastos (colorida de acordo com sua origem como expressão materna, paterna ou mista, ver Métodos). Apenas o subconjunto de genes que são suportados por múltiplos iSNPs é listado de acordo com a sua ordem ao longo dos cromossomas. Ao todo relatamos 93 genes anotados no ChrX (Fig. 4a, 30 genes fugidos e 63 genes inativados). Note que os genes ativados por X são responsáveis por genes que são expressos principalmente a partir do Xa materno. Um conjunto de genes com expressão paterna na ponta do ChrX p-arm representa a expressão bialélica esperada dos genes PAR (Fig. 4a). Evidências adicionais para expressão paterna são localizadas para o XIC com genes como XIST, JPX, e FTX. Enquanto a maioria dos fugitivos é suportada por um número limitado de iSNPs, alguns deles como ZFX, CD99 e SLC25A6 são suportados por um número relativamente grande de iSNPs de suporte (48, 38 e 34, respectivamente).
Um método alternativo para avaliar a extensão do fenômeno de inativação X é quantificar a evidência diretamente da soma de todas as leituras sequenciadas (abreviado como o protocolo baseado em leitura). Figura 4b-c compara contagens lidas de Chr17 (Fig. 4b) e ChrX (Fig. 4c) pela origem paterna versus maternal. Comparamos os dados de expressão das células individuais e do Pool100. A regressão linear para a expressão gênica do Chr17 mostra uma linha de ajuste de alta correlação (r2 = 0,823, Fig. 4b). Como esperado, a correlação é mais forte nos dados originados do Pool100 (r2 = 0,946, Fig. 4b). Concluímos que, apesar da expressão monoalélica devido ao fenômeno de estouro transcripcional, a expressão alélica equilibrada de todos os genes é fortemente suportada. Para ChrX entretanto, a regressão linear resultante das células únicas é pobre (r2 = 0,238, Fig. 4c), e não foi melhorada pelos dados do Pool100 (r2 = 0,222, Fig. 4d). A inspeção dos dados da expressão ChrX mostra que as linhas de regressão realmente se inclinam para a expressão Xa materna (eixo x). Os dados da expressão são consistentes com duas linhas de regressão distintas para ChrX. Uma que corresponde aos genes inativados (paralela ao eixo x), e a outra corresponde a uma expressão tridimensionalmente bialleica.
Aplicar o protocolo conservador baseado no iSNP leva à identificação de 30 genes como candidatos a fuga que também são suportados pelo protocolo baseado na leitura (Tabela 2). O baseado em leitura (i.e, rotulando um gene como escapee por ter um número mínimo de leituras paternais, veja Métodos) expandiu a lista de candidatos a escapee para incluir 49 genes no total (arquivo adicional 4: Tabela S3).
Testar a origem dos alelos ao longo de um gene na mesma célula é um teste rigoroso para a confiabilidade dos iSNPs. Este teste só é válido para genes com múltiplos hSNPs. Tais genes que são suportados com dois ou mais hSNPs expressando hSNPs respondem por 44% dos genes. Consideramos um gene consistente se a expressão ao longo do gene em uma célula específica não for monoalélica para ambos os alelos. Ao todo, identificamos 3 genes inconsistentes – TEX11, FTX, e ZCCHC16. Para outros 6 genes, a inconsistência é apenas parcial, já que existem outras observações de expressão bialleica. A estimativa da inconsistência total (3 dos 29 genes elegíveis para este teste) sugere que um limite superior para uma interpretação defeituosa de 10%. Além disso, o protocolo baseado no iSNP identificou 9 dos 11 genes PAR expressos. Assim, extrapolamos a taxa de detecção de fugas para ser de 82%. Curiosamente, a análise de Chr17, sob a suposição de que não há viés alélico sistemático, mostrou que 7,3 e 9,6% dos genes estavam associados à expressão monoalélica materna e paterna, respectivamente. Esses resultados fornecem um limite superior de 17,9% para a probabilidade de falsa rotulagem de genes no Chr17 e podem ser usados para estimar a limitação do método.
A evidência paterna exigente de pelo menos duas células reduz o número de fugitivos de 49 para 18 (incluindo 5 genes PAR). Muitos genes de evidência única resultantes de uma célula externa específica (SRR764803) que contribuíram para 17 dos 49 genes relatados (Tabela 2, Arquivo adicional 5: Tabela S4). Esta célula exibe os maiores níveis de expressão tanto no ChrX como no Chr17 (arquivo adicional 1: Texto e Figura S4). A Tabela 2 lista os candidatos a fuga descobertos juntamente com suas evidências de suporte (Tabela 2).
Comparação dos fugitivos identificados ao conhecimento atual
Testes a correspondência entre os fugitivos identificados de nosso estudo e um catálogo baseado em literatura . Este catálogo unificado foi compilado a partir da integração de quatro estudos independentes que abrangem 1144 genes do ChrX. Os genes deste catálogo são divididos manualmente em nove categorias definidas (ver Métodos). A maior delas é a dos genes que carecem de informação (45%) . Cerca de 15% dos genes (168/1144) são considerados ‘escape-associados’ (ver Métodos). Consideramos o conjunto compilado de genes ‘escape-associados’ como um padrão de ouro para testar a taxa de descoberta de escapee em nosso estudo (total de 124 genes, genes PAR excluídos, coletivamente chamados Balaton-Esc).
Aplicamos um teste estatístico hipergeométrico (ver Métodos) para avaliar a sobreposição das diferentes listas de genes escapee (Fig. 5). A Figura 5a mostra o número de escape identificados dos fibroblastos e linfoblastos (excluindo os genes PAR). Note que somente os genes que estão incluídos no benchmark Balaton-Esc estão incluídos nesta análise (Fig. 5). A Figura 5b mostra o significado estatístico da sobreposição entre as listas de genes da Fig. 5a e do Balaton-Esc . Como pode ser visto, há uma sobreposição significativa entre os escapados dos linfoblastos (Tabela 2 e arquivo adicional 4: Tabela S3) e a lista de Balaton Esc (Fig. 5b, p = 7,43E-8). A aplicação do mesmo teste para os fibroblastos primários (Tabela 1) resultou em uma significância menor (p=0,07E-2).
Figure 5c mostra os genes de sobreposição entre os fugitivos identificados em nosso estudo e o catálogo Balaton-Esc (168 genes incluindo os genes PAR) . Também incluímos um recurso complementar baseado em 940 transcriptomas do scRNA-Seq (25 genes escapee, Tukiainen-Esc) . O diagrama Venn mostra que cada um dos estudos acima contribui para o conhecimento atual sobre os fugitivos. Escapees from the two external resources overlap by 18 out of 25 reported genes (72%). Como mostrado na Fig. 5c, 62% dos fugitivos relatados dos linfoblastos se sobrepõem às listas de fugitivos externos, enquanto os fibroblastos são suportados por apenas 38% de sobreposição. Notavelmente, a maioria dos nossos candidatos a escapee genes descobertos de fibroblastos (62%) não tem correspondência com as outras listas testadas (arquivo adicional 6: Tabela S5).
LncRNAs estendemos a lista de candidatos a escapee
Estendemos nossa análise para RNAs longos não codificadores (lncRNAs) usando os mesmos critérios de escapee usados a partir dos genes codificadores (Fig. 6). Ao todo identificamos 15 lncRNAs como candidatos a escape, entre eles apenas alguns foram previamente estudados. A localização dos lncRNAs e das fugas de codificação ao longo do ChrX é mostrada (Fig. 6a). Nós testamos as posições dos fugitivos ao longo do ChrX em relação a todos os genes ChrX. Enquanto a distribuição posicional para os escapados lncRNA é similar (teste de Kolmogorov-Smirnov, valor de p = 0,57), é diferente para a codificação dos escapados (teste de Kolmogorov-Smirnov, valor de p = 0,004, Fig. 6a).
Figure 6b lista todos os 15 genes de escape lncRNA identificados, entre eles, são genes ncRNA do XIC que coordenam a ativação e manutenção da ativação X. Muitos dos lncRNAs estão localizados em segmentos transcritivamente ativos (por exemplo, dentro do PAR ou do XIC), enquanto outros estão localizados em regiões não-conservadas que são enriquecidas com ncRNAs longos e curtos. Para lncRNAs adicionais, incluindo genes inativados veja o arquivo adicional 7: Tabela S6.
Figure 6c resume a partição de acordo com as evidências para todos os genes que são relatados com quaisquer níveis de confiança como escape (arquivo adicional 6: Tabela S5). Esta lista inclui 75 candidatos que são relatados neste estudo, incluindo evidências do Pool100, uma coleção de novos lncRNAs. A Figura 6d fornece uma lista detalhada da descoberta a partir destes dados em vista dos recursos externos serval. O número de células que fornecem evidência também é indicado para cada gene.
Ao levar em conta esses recursos externos, nós combinamos cada gene de acordo com a qualidade do suporte independente associado a ele (Fig. 6c e d). Especificamente, dividimos a lista dos 75 genes em quatro grupos: (i) Os genes são rotulados como “confirmados” se forem reportados como fugitivos por ambos os recursos externos previamente discutidos. Existem 31 genes deste tipo, para os quais este estudo fornece mais uma confirmação para a sua identidade como fugitivos. (ii) 7 genes adicionais são rotulados como “aprovados”. Estes genes são rotulados como fugitivos por apenas um dos dois recursos externos . Para estes genes, a evidência independente deste estudo aprova a sua identidade. (iii) 12 genes adicionais são marcados como “prováveis” fugitivos. Estes genes são atribuídos de acordo com a concordância com um relatório externo adicional relatando 114 fugitivos , que não foi incluído no catálogo baseado na literatura , e assim pode ser considerado como um recurso independente. (iv) 25 genes adicionais são marcados como “possíveis” fugitivos. Estes genes carecem de qualquer evidência bibliográfica que sustente sua identidade, portanto, sua designação como fugitivos permanece menos suportada. Entre eles, 5 genes são suportados apenas a partir da célula externa do linfoblasto e, portanto, provavelmente são falsos. Neste conjunto, há mais 10 genes que não foram relatados por nenhum dos três recursos externos discutidos , A maioria dos lncRNAs ignorados pertencem a este grupo. Dois destes lncRNAs esquecidos (TCONS_00017125, e TCONS_00017281, Fig. 6b) estão localizados na região do PAR que é excepcionalmente ativa na transcrição bialleica. Os dados de origem para a Fig. 6d estão no arquivo adicional 6: Tabela S5.