- Un marco para medir el escape de la inactivación del cromosoma X en células individuales
- Cuantificación de la expresión bialélica a partir de fibroblastos primarios unicelulares
- Identificación de escapes en fibroblastos primarios de una sola célula
- Cuantificación de la expresión alélica de linfoblastos clonales en fase
- Identificación de los escapes de los linfoblastos unicelulares
- Comparación de los escapistas identificados con el conocimiento actual
- Los lncRNAs amplían la lista de candidatos a escapistas
- La partición basada en la evidencia de los genes escapistas
Un marco para medir el escape de la inactivación del cromosoma X en células individuales
Identificamos los escapes analizando la expresión de genes de células individuales somáticas utilizando la metodología scRNA-Seq (ver Métodos). Para evaluar la sensibilidad del método, comparamos la expresión del cromosoma X (ChrX) con la de otros cromosomas autosómicos. En concreto, nos centramos en el cromosoma 17 (Chr17), rico en genes, como prototipo de cromosoma autosómico. Se seleccionó Chr17 porque representa un cromosoma con un número mínimo de genes impresos específicos de los padres. Las propiedades cuantitativas de ChrX y Chr17 se enumeran en la Fig. 1a.
Este estudio se basa en el análisis de dos recursos de origen femenino: (i) Fibroblastos primarios UCF1014 (con 104 células, ver Métodos). Este conjunto está especificado por una mayor cobertura de datos transcriptómicos, pero carece de información sobre el desfase de los haplotipos (Fig. 1b); (ii) Un conjunto de datos más pequeño de linfoblastos clonales (n = 25) de la línea celular GM12878 con genomas diploides parentales completamente desfasados y secuenciados (Fig. 1c). En ambos conjuntos de datos, la transcripción en los SNPs heterocigotos (hSNPs) es la fuente de información para determinar la expresión monoalélica o bialélica. Cada hSNP, en cada célula, que es apoyado por la evidencia de expresión por encima de un umbral predeterminado se considera un SNP informativo (iSNP) (ver Métodos, archivo adicional 1: Texto). La suma de iSNPs por gen define su etiqueta única como gen inactivado o escapado (ver Métodos, Fig. 1b-c, Archivo adicional 1: Texto).
Cuantificación de la expresión bialélica a partir de fibroblastos primarios unicelulares
Analizamos los datos publicados de scRNA-Seq de fibroblastos humanos primarios femeninos . Antes del análisis, nos ocupamos de un escollo experimental relevante para muchos estudios unicelulares. El escollo se refiere a los dobles de células en los que se secuencian más de una célula por una biblioteca. En tal escenario, diferentes cromosomas X activos (Xa) de dos células diferentes que se incluyen en la muestra producirán una señal bialélica a lo largo de todo el cromosoma X. Aunque se espera que la fracción de dobletes sea pequeña, puede llevar a una interpretación errónea. Por lo tanto, antes de analizar los datos de los fibroblastos, volvimos a examinar los 104 fibroblastos y comprobamos su proporción bialélica con respecto a ChrX (véase Métodos). Tres células mostraron un grado excepcionalmente alto de expresión bialélica que podría indicar una mezcla de dos cromosomas X parentales (Archivo adicional 1: Texto y Figura S3). Eliminamos las tres células sospechosas de todos los análisis.
A continuación, para cada célula individual, contamos el número de lecturas que fueron mapeadas de forma única a alelos hSNP. La proporción alélica (AR) para cada iSNP se define como la fracción de las lecturas asignadas al alelo alternativo (Alt) del total de lecturas (véase Métodos, Archivo adicional 2: Tabla S1). La figura 2a-c resume el AR de ChrX, Chr17 y de todos los cromosomas autosómicos según la colección de fibroblastos primarios (101 de 104 células). Además, la Fig. 2d muestra la distribución del AR de un conjunto anotado de genes impresos de los tejidos de la piel (según ). Como se informó anteriormente, es evidente un sesgo en el mapeo hacia el genoma de referencia (AR = 0) (Fig. 2a-d). Además, se observó una fracción sustancial de expresión monoalélica para todos los conjuntos analizados (Fig. 2a-d). Esta aparición dominante de la expresión monoalélica en las células individuales es causada por una combinación tanto del submuestreo de los transcritos, como de un fenómeno que se conoce como «estallido transcripcional» .
Nos centramos sólo en los iSNP que muestran una firma no monoalélica (es decir, excluyendo AR = 0 y AR = 1). Observamos una marcada diferencia en la distribución de AR de ChrX y de los genes impresos en relación con Chr17 y todos los cromosomas autosómicos (comparar Fig. 2a a b y Fig. 2c a d). En consecuencia, se pueden extraer varias observaciones de los resultados mostrados en la Fig. 2: (i) Chr17 y todos los autosomas comparten un perfil AR similar. (ii) Una clara tendencia hacia la expresión equilibrada (AR = 0,5) es evidente para cualquier cromosoma autosómico (Fig. 2a-b), pero no para ChrX o los genes impresos (Fig. 2c-d). (iii) La fracción de expresión no monoalélica en los cromosomas autosómicos es mayor (~ 18%) en relación con ChrX (~ 9%). (iv) La fracción de expresión no monopólica en los genes impresos muestra un nivel intermedio (13%). Este nivel intermedio es probablemente un reflejo de la inconsistencia inherente a la identidad de los genes impresos. Archivo adicional 3: La tabla S2 enumera los iSNPs de apoyo para todos los cromosomas analizados en los fibroblastos, incluyendo el conjunto de genes impresos.
Identificación de escapes en fibroblastos primarios de una sola célula
En el conjunto de datos de los fibroblastos primarios, hay 232 y 485 genes que están apoyados por pruebas iSNPs para ChrX y Chr17, respectivamente. Como estas células carecen de información sobre el desfase del genoma (Fig. 1b), la información sobre el escape del cromosoma X se limita al conjunto de iSNPs bialélicas (ver Fig. 1b). Agregamos los iSNPs según sus genes correspondientes (Fig. 1b). La agregación se realiza a través de diferentes células individuales y a través de múltiples iSNPs dentro de un par célula-gen específico. Un gen será etiquetado como candidato a escapista cuando esté asociado a múltiples iSNPs bialélicos. En total identificamos 24 genes de este tipo (Tabla 1) que representan el 10,3% de todos los genes expresados en ChrX. Como era de esperar, la fracción de genes en Chr17 que muestran expresión bialélica es sustancialmente mayor (49,3%, archivo adicional 4: Tabla S3).
La Tabla 1 enumera los candidatos a escapista en diferentes grados de apoyo. Por ejemplo, los genes ZFX (Zinc finger X-chromosomal protein) y SMC1A (Structural maintenance of chromosomes protein 1A) están fuertemente apoyados con 103 y 19 iSNPs bialélicos, respectivamente. Un incremento adicional en la fiabilidad de la identificación de los escapes se basa en tener al menos 2 células independientes que aporten información sobre la expresión bialélica. Mostramos que 21 de los 24 genes cumplían este estricto criterio (Tabla 1). En particular, entre los escapes identificados sólo detectamos tres genes PAR (SLC25A6, CD99 y DHRSX, Tabla 1). La asignación de estos genes como escapistas concuerda con la expresión PAR esperada. A partir del número de genes PAR bialélicos de los genes PAR expresados, estimamos que la tasa de descubrimiento de falsos negativos para los escapistas era tan alta como el 70% (es decir, se perdieron 7 de 10 genes PAR expresados). Archivo adicional 4: La tabla S3 muestra el apoyo a la tabla 1.
Cuantificación de la expresión alélica de linfoblastos clonales en fase
Una limitación importante en el protocolo descrito anteriormente se refiere a la falta de haplotipos parentales en fase. En esta situación, los iSNP no pueden asignarse a Xa o Xi. En consecuencia, la elección aleatoria de Xi que caracteriza a las células primarias limita la tasa de descubrimiento de escapes. Ampliamos el análisis de scRNA-Seq a linfoblastos de origen femenino de la línea celular clonal GM12878. Véase la Fig. 1c y el archivo adicional 1: Figura S4.
La Figura 3a muestra el perfil de expresión para células individuales de linfoblastos clonales (n = 25) (Archivo adicional 2: Tabla S1, Archivo adicional 5: Tabla S4). En cualquier célula individual, la expresión monoalélica refleja la combinación de un submuestreo de transcripciones y el fenómeno de la explosión transcripcional . Está claro que la expresión materna de la Xa domina (Fig. 3a, arriba). Una observación que concuerda con el origen materno Xa reportado en la línea celular GM12878 . En la mayoría de las células analizadas, una pequeña pero sustancial fracción de la expresión total medida proviene del cromosoma Xi paterno (Fig. 3a, arriba). En cambio, Chr17 y los cromosomas autosómicos muestran una expresión igual de ambos alelos (Fig. 3a, paneles central e inferior).
De la figura se desprende que el fenómeno de la explosión transcripcional afecta a todos los cromosomas, incluido ChrX. Para evaluar el impacto de este fenómeno en la identificación de genes como escapistas, comparamos células individuales con respecto a un pool de células (Pool100, Fig. 3a, barra derecha). Mientras que la mayoría de los iSNPs de Chr17 muestran perfiles bialélicos, ChrX sigue dominado por una expresión monoalélica materna.
La figura 3b es una vista agregada de ChrX, Chr17 y los cromosomas autosómicos. Los datos se basan en 375, 808 y 20.212 hSNPs expresados, respectivamente. La figura 3b (paneles central y derecho) muestra una partición igual de los alelos parentales de Chr17 y de los cromosomas autosómicos (Fig. 3b, arriba). Realizando el mismo análisis en los datos recogidos de Pool100 (Fig. 3c) se observa que la partición de los alelos parentales permanece prácticamente sin cambios (comparar la fracción ocupada por los colores rosa y azul, Fig. 3b-c). Además, observamos un cambio de una expresión monoalélica (Fig. 3b-c, color relleno) a una expresión bialélica (Fig. 3b-c, color rayado). La fracción de la expresión bialélica para Ch17 aumentó del 19% en células individuales al 80% en Pool100, y para los cromosomas autosómicos del 18 al 79% (Fig. 3c, paneles central y derecho). Los resultados de Pool100 indican que la expresión monoalélica observada en células individuales queda prácticamente abolida al promediar la señal.
Los resultados de ChrX (Fig. 3b (izquierda) son fundamentalmente diferentes en relación con Chr17 o los cromosomas autosómicos (Fig. 3b-c). La diferencia más notable es que sólo el 21% de los iSNP expresados están asociados con el alelo Xi paterno en ChrX (Fig. 3b, arriba). Además, al analizar el Pool100, la fracción de expresión bialélica permanece limitada (un cambio del 9% en las células individuales al 34% en el Pool100). El patrón observado de ChrX de Pool100 (Fig. 3c, izquierda) se explica mejor por un promedio de la señal estocástica monoalélica (en el mismo grado que los otros cromosomas) mientras se mantiene una fuerte señal de la expresión Xa monoalélica. Véase el archivo adicional 5: Tabla S4 para la relación alélica de los linfoblastos de todos los cromosomas analizados y el Pool100.
Identificación de los escapes de los linfoblastos unicelulares
La figura 4a es una vista centrada en los genes que muestra la partición alélica de los iSNP de los linfoblastos (coloreada según su origen como expresión materna, paterna o mixta, véase Métodos). Sólo el subconjunto de genes que son apoyados por múltiples iSNPs se enumeran de acuerdo con su orden a lo largo de los cromosomas. En total, informamos de 93 genes anotados en ChrX (Fig. 4a, 30 escapes y 63 genes inactivados). Obsérvese que los genes inactivados por el X corresponden a genes que se expresan principalmente desde el Xa materno. Un grupo de genes con expresión paterna en el extremo del brazo p de ChrX representa la expresión bialélica esperada de los genes PAR (Fig. 4a). Evidencias adicionales de la expresión paterna se localizan en el XIC con genes como XIST, JPX y FTX. Mientras que la mayoría de los escapes son apoyados por un número limitado de iSNPs, unos pocos de ellos como ZFX, CD99, y SLC25A6 son apoyados por un número relativamente grande de iSNPs de apoyo (48, 38 y 34, respectivamente).
Un método alternativo para evaluar el alcance del fenómeno de la inactivación de X es cuantificar las pruebas directamente a partir de la suma de todas las lecturas secuenciadas (abreviado como protocolo basado en lecturas). En la Figura 4b-c se comparan los recuentos de lecturas de Chr17 (Figs. 4b) y ChrX (Fig. 4c) según el origen paterno frente al materno. Comparamos los datos de expresión de las células individuales y del Pool100. La regresión lineal para la expresión génica de Chr17 muestra una línea de ajuste de alta correlación (r2 = 0,823, Fig. 4b). Como se esperaba, la correlación es más fuerte en los datos originados por el Pool100 (r2 = 0,946, Fig. 4b). Concluimos que, a pesar de la expresión monoalélica debida al fenómeno de la explosión transcripcional, la expresión alélica equilibrada de todos los genes está fuertemente apoyada. Sin embargo, para ChrX, la regresión lineal resultante de las células individuales es pobre (r2 = 0.238, Fig. 4c), y no fue mejorada por los datos del Pool100 (r2 = 0.222, Fig. 4d). La inspección de los datos de expresión de ChrX muestra que las líneas de regresión en realidad se inclinan hacia la expresión de Xa materna (eje x). Los datos de expresión son consistentes con dos líneas de regresión distintas para ChrX. Una que coincide con los genes inactivados (paralela al eje x), y la otra coincide con una expresión fidedignamente bialélica.
La aplicación del protocolo conservador basado en iSNP conduce a la identificación de 30 genes como candidatos a escapar que también son apoyados por el protocolo basado en lecturas (Tabla 2). El protocolo basado en lecturas (es decir etiquetar un gen como escapista por tener un número mínimo de lecturas paternas, ver Métodos) amplió la lista de candidatos a escapista para incluir en total 49 genes (Archivo adicional 4: Tabla S3).
Probar el origen parental de los alelos a lo largo de un gen en la misma célula es una prueba estricta para la fiabilidad de los iSNPs. Esta prueba sólo es válida para los genes con múltiples hSNPs. Dichos genes que se apoyan en dos o más hSNPs expresivos representan el 44% de los genes. Consideramos que un gen es consistente si la expresión a lo largo del gen en una célula específica no es monoalélica para ambos alelos. En total, identificamos 3 genes inconsistentes: TEX11, FTX y ZCCHC16. Para otros 6 genes, la inconsistencia es sólo parcial, ya que hay otras observaciones de expresión bialélica. La estimación de la incoherencia total (3 de los 29 genes que eran elegibles para esta prueba) sugiere que un límite superior para una interpretación defectuosa del 10%. Además, el protocolo basado en iSNP identificó 9 de los 11 genes PAR expresados. Por lo tanto, extrapolamos la tasa de detección de fugas a un 82%. Curiosamente, el análisis de Chr17, bajo el supuesto de que no hay un sesgo alélico sistemático, mostró que el 7,3 y el 9,6% de los genes estaban asociados con la expresión monoalélica materna y paterna, respectivamente. Estos resultados proporcionan un límite superior del 17,9% a la probabilidad de etiquetado de genes falsos en Chr17 y pueden utilizarse para estimar la limitación del método.
Exigir evidencia paterna de al menos dos células reduce el número de escapes de 49 a 18 (incluyendo 5 genes PAR). Muchos genes de evidencia única resultan de una célula atípica específica (SRR764803) que contribuyó a 17 de los 49 genes reportados (Tabla 2, Archivo adicional 5: Tabla S4). Esta célula presenta los niveles de expresión más altos tanto en ChrX como en Chr17 (archivo adicional 1: texto y figura S4). La Tabla 2 enumera los candidatos a escapistas descubiertos junto con sus pruebas de apoyo (Tabla 2).
Comparación de los escapistas identificados con el conocimiento actual
Probamos la correspondencia entre los escapistas identificados de nuestro estudio y un catálogo basado en la literatura . Este catálogo unificado fue compilado a partir de la integración de cuatro estudios independientes que cubre 1144 genes de ChrX. Los genes de este catálogo están divididos manualmente en nueve categorías definidas (ver Métodos). La más grande corresponde a los genes que carecen de información (45%) . Alrededor del 15% de los genes (168/1144) se consideran ‘asociados a escapes’ (ver Métodos). Consideramos el conjunto compilado de genes ‘asociados a los fugitivos’ como un estándar de oro para probar la tasa de descubrimiento de los fugitivos en nuestro estudio (total de 124 genes, excluidos los genes PAR, denominados colectivamente Balaton-Esc).
Aplicamos una prueba estadística hipergeométrica (ver Métodos) para evaluar el solapamiento de las diferentes listas de genes de los fugitivos (Fig. 5). La figura 5a muestra el número de escapes identificados de los fibroblastos y linfoblastos (excluyendo los genes PAR). Obsérvese que en este análisis sólo se incluyen los genes que están incluidos en el punto de referencia Balaton-Esc (Fig. 5). La Figura 5b muestra la importancia estadística del solapamiento entre las listas de genes de la Fig. 5a y el Balaton-Esc . Como se puede observar, existe un solapamiento significativo entre los escapes de los linfoblastos (Tabla 2 y Archivo Adicional 4: Tabla S3) y la lista Balaton Esc (Fig. 5b, valor p = 7,43E-8). La aplicación de la misma prueba para los fibroblastos primarios (Tabla 1) dio como resultado una significación menor (valor p = 4,07E-2).
La figura 5c representa los genes de solapamiento entre los escapes identificados en nuestro estudio y el catálogo Balaton-Esc (168 genes incluyendo los genes PAR) . También incluimos un recurso complementario basado en 940 transcriptomas de scRNA-Seq (25 genes de escapistas, Tukiainen-Esc) . El diagrama de Venn muestra que cada uno de los estudios mencionados contribuye al conocimiento actual sobre los escapistas. Los escapes de los dos recursos externos se superponen en 18 de los 25 genes reportados (72%). Como se muestra en la Fig. 5c, el 62% de los escapes reportados de los linfoblastos se superponen con las listas de escapes externos, mientras que los fibroblastos son apoyados por sólo el 38% de superposición. En particular, la mayoría de nuestros genes candidatos a escapistas descubiertos de los fibroblastos (62%) no tienen correspondencia con las otras listas analizadas (Archivo adicional 6: Tabla S5).
Los lncRNAs amplían la lista de candidatos a escapistas
Ampliamos nuestro análisis a los RNAs largos no codificantes (lncRNAs) utilizando los mismos criterios de escapistas que los utilizados para los genes codificantes (Fig. 6). En total, identificamos 15 lncRNAs como candidatos a escapar, entre los cuales sólo unos pocos habían sido estudiados previamente. Se muestra la localización de los lncRNAs y de los escapes codificantes a lo largo de ChrX (Fig. 6a). Comprobamos las posiciones de los escapes a lo largo de la ChrX en relación con todos los genes de la ChrX. Mientras que la distribución posicional para los escapes de lncRNAs es similar (prueba de Kolmogorov-Smirnov, valor p = 0,57), es diferente para los escapes de codificación (prueba de Kolmogorov-Smirnov, valor p = 0,004, Fig. 6a).
La Figura 6b enumera los 15 genes lncRNA escapados identificados, entre los que se encuentran genes ncRNA del XIC que coordinan la activación y el mantenimiento de la inactivación del X. Muchos de los lncRNAs están localizados en segmentos transcripcionalmente activos (por ejemplo, dentro del PAR o del XIC), mientras que otros están localizados en regiones no conservadas que están enriquecidas con ncRNAs largos y cortos. Para los lncRNAs adicionales, incluyendo los genes inactivados, véase el archivo adicional 7: Tabla S6.
La partición basada en la evidencia de los genes escapistas
La Figura 6c resume la partición según la evidencia para todos los genes que se reportan con cualquier nivel de confianza como escapistas (archivo adicional 6: Tabla S5). Esta lista incluye 75 candidatos que se reportan en este estudio, incluyendo la evidencia de Pool100, una colección de nuevos lncRNAs. La Figura 6d proporciona una lista detallada de los hallazgos de estos datos a la vista de los recursos externos de Serval. El número de células que proporcionan evidencia también se indica para cada gen.
Tomando en cuenta estos recursos externos, emparejamos cada gen según la calidad del apoyo independiente asociado a él (Fig. 6c y d). En concreto, dividimos la lista de 75 genes en cuatro grupos: (i) Los genes son etiquetados como «confirmados» si son reportados como escapados por ambos recursos externos previamente discutidos . Hay 31 genes de este tipo, para los que este estudio proporciona una confirmación adicional de su identidad como fugitivos. (ii) Otros 7 genes están etiquetados como «aprobados». Estos genes están etiquetados como escapistas por sólo uno de los dos recursos externos. Para estos genes, la evidencia independiente de este estudio aprueba su identidad. (iii) Otros 12 genes adicionales están marcados como «probables» escapistas. Estos genes se asignan según el acuerdo con un informe externo adicional que informa sobre 114 escapes , que no se incluyó en el catálogo basado en la literatura , y por lo tanto se puede considerar como un recurso independiente. (iv) Otros 25 genes están marcados como «posibles» fugitivos. Estos genes carecen de cualquier evidencia bibliográfica que respalde su identidad, por lo que su asignación como escapistas sigue siendo menos respaldada. Entre ellos, 5 genes se apoyan sólo en la célula atípica del linfoblasto y, por tanto, es probable que sean falsos. En este conjunto, hay 10 genes adicionales que no fueron reportados por ninguno de los tres recursos externos discutidos , La mayoría de los lncRNAs pasados por alto pertenecen a este grupo. Dos de estos lncRNAs pasados por alto (TCONS_00017125, y TCONS_00017281, Fig. 6b) están localizados en la región PAR que es excepcionalmente activa en la transcripción bialélica. Los datos fuente de la Fig. 6d se encuentran en el archivo adicional 6: Tabla S5.