Un marco para medir el escape de la inactivación del cromosoma X en células individuales

Identificamos los escapes analizando la expresión de genes de células individuales somáticas utilizando la metodología scRNA-Seq (ver Métodos). Para evaluar la sensibilidad del método, comparamos la expresión del cromosoma X (ChrX) con la de otros cromosomas autosómicos. En concreto, nos centramos en el cromosoma 17 (Chr17), rico en genes, como prototipo de cromosoma autosómico. Se seleccionó Chr17 porque representa un cromosoma con un número mínimo de genes impresos específicos de los padres. Las propiedades cuantitativas de ChrX y Chr17 se enumeran en la Fig. 1a.

Fig. 1

Flujo de trabajo para la identificación de genes fugados a partir de células individuales. a Las propiedades cuantitativas de ChrX y Chr17 se enumeran según GRCh37 (GRC Human Build 37). b Un esquema para el análisis de fibroblastos primarios de células individuales. Los dos colores para los núcleos representan la elección aleatoria de Xa. En el contexto de los fibroblastos, cada Xa muestra un patrón de expresión diferente para los hSNP. Cada uno de los iSNPs puede asignarse al alelo de referencia (R) o al alelo alternativo (A). Si una célula con un Xa tendrá un patrón de expresión de A R A, una célula con el Xa alternativo expresará R A R. Debido a la inactivación aleatoria del X, y a que los hSNPs no están desfasados, la anotación de un gen como escapado se basa totalmente en tener múltiples pruebas de iSNPs con expresión bialélica. La tabla ilustrativa muestra el análisis de los iSNPs de cada uno de los hSNPs (a la izquierda) en cada una de las células como A o R y la anotación de un gen según la acumulación de la evidencia de los iSNPs. La ilustración marca las hSNPs derivadas de 4 células individuales (célula-1 a célula-4). Los hSNPs están asociados a 3 genes (marcados como gen a a gen c). El gen a es el único gen con múltiples iSNPs bialélicas, por lo que está anotado como gen Escapee (Esc). Los otros dos genes o bien no tienen iSNPs bialélicos (gen b) o bien sólo tienen un único iSNP como evidencia de la expresión bialélica (gen c) y por lo tanto se anotan como gen Inactivado (Ina). c El esquema para los linfoblastos clonales de células individuales. A diferencia de los fibroblastos primarios (b), el origen parental de Xa es idéntico para todas las células. En este caso de la línea celular GM12878 el Xa está asociado al alelo materno (M) (simbolizado por núcleos de color rosa). Para los linfoblastos, la aparición de un alelo paterno (marcado como P) basta con la identificación de un iSNP que se expresa a partir de Xi y, por lo tanto, puede ser potencialmente anotado como un escape. La tabla de la derecha hace hincapié en la asignación de escapes a los linfoblastos. Las categorías de la tabla son las mismas que en (b). Para más detalles sobre el flujo de trabajo y los protocolos aplicados, véase el archivo adicional 1: Texto y Figura S1

Este estudio se basa en el análisis de dos recursos de origen femenino: (i) Fibroblastos primarios UCF1014 (con 104 células, ver Métodos). Este conjunto está especificado por una mayor cobertura de datos transcriptómicos, pero carece de información sobre el desfase de los haplotipos (Fig. 1b); (ii) Un conjunto de datos más pequeño de linfoblastos clonales (n = 25) de la línea celular GM12878 con genomas diploides parentales completamente desfasados y secuenciados (Fig. 1c). En ambos conjuntos de datos, la transcripción en los SNPs heterocigotos (hSNPs) es la fuente de información para determinar la expresión monoalélica o bialélica. Cada hSNP, en cada célula, que es apoyado por la evidencia de expresión por encima de un umbral predeterminado se considera un SNP informativo (iSNP) (ver Métodos, archivo adicional 1: Texto). La suma de iSNPs por gen define su etiqueta única como gen inactivado o escapado (ver Métodos, Fig. 1b-c, Archivo adicional 1: Texto).

Cuantificación de la expresión bialélica a partir de fibroblastos primarios unicelulares

Analizamos los datos publicados de scRNA-Seq de fibroblastos humanos primarios femeninos . Antes del análisis, nos ocupamos de un escollo experimental relevante para muchos estudios unicelulares. El escollo se refiere a los dobles de células en los que se secuencian más de una célula por una biblioteca. En tal escenario, diferentes cromosomas X activos (Xa) de dos células diferentes que se incluyen en la muestra producirán una señal bialélica a lo largo de todo el cromosoma X. Aunque se espera que la fracción de dobletes sea pequeña, puede llevar a una interpretación errónea. Por lo tanto, antes de analizar los datos de los fibroblastos, volvimos a examinar los 104 fibroblastos y comprobamos su proporción bialélica con respecto a ChrX (véase Métodos). Tres células mostraron un grado excepcionalmente alto de expresión bialélica que podría indicar una mezcla de dos cromosomas X parentales (Archivo adicional 1: Texto y Figura S3). Eliminamos las tres células sospechosas de todos los análisis.

A continuación, para cada célula individual, contamos el número de lecturas que fueron mapeadas de forma única a alelos hSNP. La proporción alélica (AR) para cada iSNP se define como la fracción de las lecturas asignadas al alelo alternativo (Alt) del total de lecturas (véase Métodos, Archivo adicional 2: Tabla S1). La figura 2a-c resume el AR de ChrX, Chr17 y de todos los cromosomas autosómicos según la colección de fibroblastos primarios (101 de 104 células). Además, la Fig. 2d muestra la distribución del AR de un conjunto anotado de genes impresos de los tejidos de la piel (según ). Como se informó anteriormente, es evidente un sesgo en el mapeo hacia el genoma de referencia (AR = 0) (Fig. 2a-d). Además, se observó una fracción sustancial de expresión monoalélica para todos los conjuntos analizados (Fig. 2a-d). Esta aparición dominante de la expresión monoalélica en las células individuales es causada por una combinación tanto del submuestreo de los transcritos, como de un fenómeno que se conoce como «estallido transcripcional» .

Fig. 2

La distribución de la proporción alélica (AR) para cada SNP como una fracción de las asignaciones para los alelos alternativos (Alt) fuera de Alt y de referencia (Ref). El eje X en los histogramas superiores va de 0 a 1,0, donde 0 indica que todas las asignaciones están asociadas con el alelo Ref y 1 indica todas las asignaciones para el alelo Alt. Como la mayoría de los iSNP se asignan con valores AR de 0 o 1, cada análisis se muestra mediante dos histogramas. El histograma inferior se centra en los iSNP no monopólicos y abarca todos los valores de AR, excluyendo los AR = 0 y AR = 1. Se muestra el porcentaje de iSNPs que se incluyen en los histogramas inferiores. Las distribuciones del AR se muestran para Chr17 (a), cromosomas autosómicos (b), ChrX (c) y genes impresos (d). Para los datos de origen, véase el archivo adicional 3: Tabla S2

Nos centramos sólo en los iSNP que muestran una firma no monoalélica (es decir, excluyendo AR = 0 y AR = 1). Observamos una marcada diferencia en la distribución de AR de ChrX y de los genes impresos en relación con Chr17 y todos los cromosomas autosómicos (comparar Fig. 2a a b y Fig. 2c a d). En consecuencia, se pueden extraer varias observaciones de los resultados mostrados en la Fig. 2: (i) Chr17 y todos los autosomas comparten un perfil AR similar. (ii) Una clara tendencia hacia la expresión equilibrada (AR = 0,5) es evidente para cualquier cromosoma autosómico (Fig. 2a-b), pero no para ChrX o los genes impresos (Fig. 2c-d). (iii) La fracción de expresión no monoalélica en los cromosomas autosómicos es mayor (~ 18%) en relación con ChrX (~ 9%). (iv) La fracción de expresión no monopólica en los genes impresos muestra un nivel intermedio (13%). Este nivel intermedio es probablemente un reflejo de la inconsistencia inherente a la identidad de los genes impresos. Archivo adicional 3: La tabla S2 enumera los iSNPs de apoyo para todos los cromosomas analizados en los fibroblastos, incluyendo el conjunto de genes impresos.

Identificación de escapes en fibroblastos primarios de una sola célula

En el conjunto de datos de los fibroblastos primarios, hay 232 y 485 genes que están apoyados por pruebas iSNPs para ChrX y Chr17, respectivamente. Como estas células carecen de información sobre el desfase del genoma (Fig. 1b), la información sobre el escape del cromosoma X se limita al conjunto de iSNPs bialélicas (ver Fig. 1b). Agregamos los iSNPs según sus genes correspondientes (Fig. 1b). La agregación se realiza a través de diferentes células individuales y a través de múltiples iSNPs dentro de un par célula-gen específico. Un gen será etiquetado como candidato a escapista cuando esté asociado a múltiples iSNPs bialélicos. En total identificamos 24 genes de este tipo (Tabla 1) que representan el 10,3% de todos los genes expresados en ChrX. Como era de esperar, la fracción de genes en Chr17 que muestran expresión bialélica es sustancialmente mayor (49,3%, archivo adicional 4: Tabla S3).

Tabla 1 Escapes de 101 fibroblastos primarios de una sola célula. Una lista completa de todos los genes está disponible en el archivo adicional 3: Tabla S4

La Tabla 1 enumera los candidatos a escapista en diferentes grados de apoyo. Por ejemplo, los genes ZFX (Zinc finger X-chromosomal protein) y SMC1A (Structural maintenance of chromosomes protein 1A) están fuertemente apoyados con 103 y 19 iSNPs bialélicos, respectivamente. Un incremento adicional en la fiabilidad de la identificación de los escapes se basa en tener al menos 2 células independientes que aporten información sobre la expresión bialélica. Mostramos que 21 de los 24 genes cumplían este estricto criterio (Tabla 1). En particular, entre los escapes identificados sólo detectamos tres genes PAR (SLC25A6, CD99 y DHRSX, Tabla 1). La asignación de estos genes como escapistas concuerda con la expresión PAR esperada. A partir del número de genes PAR bialélicos de los genes PAR expresados, estimamos que la tasa de descubrimiento de falsos negativos para los escapistas era tan alta como el 70% (es decir, se perdieron 7 de 10 genes PAR expresados). Archivo adicional 4: La tabla S3 muestra el apoyo a la tabla 1.

Cuantificación de la expresión alélica de linfoblastos clonales en fase

Una limitación importante en el protocolo descrito anteriormente se refiere a la falta de haplotipos parentales en fase. En esta situación, los iSNP no pueden asignarse a Xa o Xi. En consecuencia, la elección aleatoria de Xi que caracteriza a las células primarias limita la tasa de descubrimiento de escapes. Ampliamos el análisis de scRNA-Seq a linfoblastos de origen femenino de la línea celular clonal GM12878. Véase la Fig. 1c y el archivo adicional 1: Figura S4.

La Figura 3a muestra el perfil de expresión para células individuales de linfoblastos clonales (n = 25) (Archivo adicional 2: Tabla S1, Archivo adicional 5: Tabla S4). En cualquier célula individual, la expresión monoalélica refleja la combinación de un submuestreo de transcripciones y el fenómeno de la explosión transcripcional . Está claro que la expresión materna de la Xa domina (Fig. 3a, arriba). Una observación que concuerda con el origen materno Xa reportado en la línea celular GM12878 . En la mayoría de las células analizadas, una pequeña pero sustancial fracción de la expresión total medida proviene del cromosoma Xi paterno (Fig. 3a, arriba). En cambio, Chr17 y los cromosomas autosómicos muestran una expresión igual de ambos alelos (Fig. 3a, paneles central e inferior).

Fig. 3

Cuantificación de las etiquetas iSNPs de 25 linfoblastos unicelulares. a Cada célula individual está dividida según sus iSNPs alélicas etiquetadas en ChrX, Chr17 y todos los cromosomas autosómicos. Los iSNPs están asociados a la expresión materna (rosa), paterna (azul claro) y equilibrada (gris). Las celdas están ordenadas de izquierda a derecha según sus contribuciones de iSNP (Archivo adicional 1: Figura S4). A la derecha, se muestra el resumen estadístico del Pool100. b Un resumen de la partición de etiquetas iSNPs para todas las 25 células individuales en ChrX, Chr17 y cromosomas autosómicos. c Un resumen de la partición de etiquetas iSNPs para el Pool100. Los colores azul y rosa están asociados a los alelos paternos y maternos, respectivamente. El patrón rayado indica que los iSNPs bialélicos se inclinan hacia los alelos paternos (azul) o maternos (rosa). Para las células individuales, los datos se basan en 375 iSNPs para ChrX, 808 iSNPs para Chr17 y 20.212 iSNPs para los cromosomas autosómicos. Los datos de Pool100 se basan en 211 iSNPs para ChrX, 216 para Chr17 y 5360 iSNPs para los cromosomas autosómicos. Para los datos de origen, véase el archivo adicional 5: Tabla S4

De la figura se desprende que el fenómeno de la explosión transcripcional afecta a todos los cromosomas, incluido ChrX. Para evaluar el impacto de este fenómeno en la identificación de genes como escapistas, comparamos células individuales con respecto a un pool de células (Pool100, Fig. 3a, barra derecha). Mientras que la mayoría de los iSNPs de Chr17 muestran perfiles bialélicos, ChrX sigue dominado por una expresión monoalélica materna.

La figura 3b es una vista agregada de ChrX, Chr17 y los cromosomas autosómicos. Los datos se basan en 375, 808 y 20.212 hSNPs expresados, respectivamente. La figura 3b (paneles central y derecho) muestra una partición igual de los alelos parentales de Chr17 y de los cromosomas autosómicos (Fig. 3b, arriba). Realizando el mismo análisis en los datos recogidos de Pool100 (Fig. 3c) se observa que la partición de los alelos parentales permanece prácticamente sin cambios (comparar la fracción ocupada por los colores rosa y azul, Fig. 3b-c). Además, observamos un cambio de una expresión monoalélica (Fig. 3b-c, color relleno) a una expresión bialélica (Fig. 3b-c, color rayado). La fracción de la expresión bialélica para Ch17 aumentó del 19% en células individuales al 80% en Pool100, y para los cromosomas autosómicos del 18 al 79% (Fig. 3c, paneles central y derecho). Los resultados de Pool100 indican que la expresión monoalélica observada en células individuales queda prácticamente abolida al promediar la señal.

Los resultados de ChrX (Fig. 3b (izquierda) son fundamentalmente diferentes en relación con Chr17 o los cromosomas autosómicos (Fig. 3b-c). La diferencia más notable es que sólo el 21% de los iSNP expresados están asociados con el alelo Xi paterno en ChrX (Fig. 3b, arriba). Además, al analizar el Pool100, la fracción de expresión bialélica permanece limitada (un cambio del 9% en las células individuales al 34% en el Pool100). El patrón observado de ChrX de Pool100 (Fig. 3c, izquierda) se explica mejor por un promedio de la señal estocástica monoalélica (en el mismo grado que los otros cromosomas) mientras se mantiene una fuerte señal de la expresión Xa monoalélica. Véase el archivo adicional 5: Tabla S4 para la relación alélica de los linfoblastos de todos los cromosomas analizados y el Pool100.

Identificación de los escapes de los linfoblastos unicelulares

La figura 4a es una vista centrada en los genes que muestra la partición alélica de los iSNP de los linfoblastos (coloreada según su origen como expresión materna, paterna o mixta, véase Métodos). Sólo el subconjunto de genes que son apoyados por múltiples iSNPs se enumeran de acuerdo con su orden a lo largo de los cromosomas. En total, informamos de 93 genes anotados en ChrX (Fig. 4a, 30 escapes y 63 genes inactivados). Obsérvese que los genes inactivados por el X corresponden a genes que se expresan principalmente desde el Xa materno. Un grupo de genes con expresión paterna en el extremo del brazo p de ChrX representa la expresión bialélica esperada de los genes PAR (Fig. 4a). Evidencias adicionales de la expresión paterna se localizan en el XIC con genes como XIST, JPX y FTX. Mientras que la mayoría de los escapes son apoyados por un número limitado de iSNPs, unos pocos de ellos como ZFX, CD99, y SLC25A6 son apoyados por un número relativamente grande de iSNPs de apoyo (48, 38 y 34, respectivamente).

Fig. 4

Una partición centrada en genes de alelos de células de linfoblastos. a Para cada gen en ChrX, se muestra la partición parental de iSNPs junto con el número de iSNPs. Para mayor claridad, sólo se enumeran los genes que están respaldados por > = 2 iSNPS. Un total de 93 genes en ChrX se enumeran por su orden en el cromosoma. El código de color es de acuerdo a las etiquetas iSNP como paterna, materna y la expresión equilibrada. Para los datos de origen, véase el archivo adicional 5: Tabla S4. b-c Correlación entre los niveles de expresión de los alelos paternos y maternos. Los gráficos de dispersión muestran los niveles de expresión de los genes según el número de lecturas asociadas a los alelos maternos (eje x) y paternos (eje y). Se indica el número de genes analizados para cada gráfico de dispersión (en el eje x, entre paréntesis). Los datos mostrados son de Chr17 (b) y ChrX (c) basados en células individuales y Pool100. Obsérvese que el número de lecturas para los datos de Pool100 es 10 veces menor con respecto a los datos acumulados extraídos de células individuales. Para los datos de origen, véase el archivo adicional 4: Tabla S3

Un método alternativo para evaluar el alcance del fenómeno de la inactivación de X es cuantificar las pruebas directamente a partir de la suma de todas las lecturas secuenciadas (abreviado como protocolo basado en lecturas). En la Figura 4b-c se comparan los recuentos de lecturas de Chr17 (Figs. 4b) y ChrX (Fig. 4c) según el origen paterno frente al materno. Comparamos los datos de expresión de las células individuales y del Pool100. La regresión lineal para la expresión génica de Chr17 muestra una línea de ajuste de alta correlación (r2 = 0,823, Fig. 4b). Como se esperaba, la correlación es más fuerte en los datos originados por el Pool100 (r2 = 0,946, Fig. 4b). Concluimos que, a pesar de la expresión monoalélica debida al fenómeno de la explosión transcripcional, la expresión alélica equilibrada de todos los genes está fuertemente apoyada. Sin embargo, para ChrX, la regresión lineal resultante de las células individuales es pobre (r2 = 0.238, Fig. 4c), y no fue mejorada por los datos del Pool100 (r2 = 0.222, Fig. 4d). La inspección de los datos de expresión de ChrX muestra que las líneas de regresión en realidad se inclinan hacia la expresión de Xa materna (eje x). Los datos de expresión son consistentes con dos líneas de regresión distintas para ChrX. Una que coincide con los genes inactivados (paralela al eje x), y la otra coincide con una expresión fidedignamente bialélica.

La aplicación del protocolo conservador basado en iSNP conduce a la identificación de 30 genes como candidatos a escapar que también son apoyados por el protocolo basado en lecturas (Tabla 2). El protocolo basado en lecturas (es decir etiquetar un gen como escapista por tener un número mínimo de lecturas paternas, ver Métodos) amplió la lista de candidatos a escapista para incluir en total 49 genes (Archivo adicional 4: Tabla S3).

Tabla 2 Escapistas de 25 linfoblastos unicelulares clonales

Probar el origen parental de los alelos a lo largo de un gen en la misma célula es una prueba estricta para la fiabilidad de los iSNPs. Esta prueba sólo es válida para los genes con múltiples hSNPs. Dichos genes que se apoyan en dos o más hSNPs expresivos representan el 44% de los genes. Consideramos que un gen es consistente si la expresión a lo largo del gen en una célula específica no es monoalélica para ambos alelos. En total, identificamos 3 genes inconsistentes: TEX11, FTX y ZCCHC16. Para otros 6 genes, la inconsistencia es sólo parcial, ya que hay otras observaciones de expresión bialélica. La estimación de la incoherencia total (3 de los 29 genes que eran elegibles para esta prueba) sugiere que un límite superior para una interpretación defectuosa del 10%. Además, el protocolo basado en iSNP identificó 9 de los 11 genes PAR expresados. Por lo tanto, extrapolamos la tasa de detección de fugas a un 82%. Curiosamente, el análisis de Chr17, bajo el supuesto de que no hay un sesgo alélico sistemático, mostró que el 7,3 y el 9,6% de los genes estaban asociados con la expresión monoalélica materna y paterna, respectivamente. Estos resultados proporcionan un límite superior del 17,9% a la probabilidad de etiquetado de genes falsos en Chr17 y pueden utilizarse para estimar la limitación del método.

Exigir evidencia paterna de al menos dos células reduce el número de escapes de 49 a 18 (incluyendo 5 genes PAR). Muchos genes de evidencia única resultan de una célula atípica específica (SRR764803) que contribuyó a 17 de los 49 genes reportados (Tabla 2, Archivo adicional 5: Tabla S4). Esta célula presenta los niveles de expresión más altos tanto en ChrX como en Chr17 (archivo adicional 1: texto y figura S4). La Tabla 2 enumera los candidatos a escapistas descubiertos junto con sus pruebas de apoyo (Tabla 2).

Comparación de los escapistas identificados con el conocimiento actual

Probamos la correspondencia entre los escapistas identificados de nuestro estudio y un catálogo basado en la literatura . Este catálogo unificado fue compilado a partir de la integración de cuatro estudios independientes que cubre 1144 genes de ChrX. Los genes de este catálogo están divididos manualmente en nueve categorías definidas (ver Métodos). La más grande corresponde a los genes que carecen de información (45%) . Alrededor del 15% de los genes (168/1144) se consideran ‘asociados a escapes’ (ver Métodos). Consideramos el conjunto compilado de genes ‘asociados a los fugitivos’ como un estándar de oro para probar la tasa de descubrimiento de los fugitivos en nuestro estudio (total de 124 genes, excluidos los genes PAR, denominados colectivamente Balaton-Esc).

Aplicamos una prueba estadística hipergeométrica (ver Métodos) para evaluar el solapamiento de las diferentes listas de genes de los fugitivos (Fig. 5). La figura 5a muestra el número de escapes identificados de los fibroblastos y linfoblastos (excluyendo los genes PAR). Obsérvese que en este análisis sólo se incluyen los genes que están incluidos en el punto de referencia Balaton-Esc (Fig. 5). La Figura 5b muestra la importancia estadística del solapamiento entre las listas de genes de la Fig. 5a y el Balaton-Esc . Como se puede observar, existe un solapamiento significativo entre los escapes de los linfoblastos (Tabla 2 y Archivo Adicional 4: Tabla S3) y la lista Balaton Esc (Fig. 5b, valor p = 7,43E-8). La aplicación de la misma prueba para los fibroblastos primarios (Tabla 1) dio como resultado una significación menor (valor p = 4,07E-2).

Fig. 5

Escapes identificados y significación estadística del solapamiento con el catálogo basado en la literatura recopilado por Balaton et al. . a Los números de escapes identificados por cada uno de los análisis. Los números incluyen sólo los genes que estaban presentes en Balaton et al. y excluyen los genes PAR. b Análisis estadístico basado en la distribución hipergeométrica que mide el solapamiento entre la lista basada en la literatura presentada por Balaton et al. y los fugados asignados en este estudio (como en (a)). El eje Y es el -log10(x) del valor p calculado. c Diagrama de Venn de los 4 conjuntos de escapes según los fibroblastos y linfoblastos analizados, la colección Balaton-Esc , y la Tukiainen-Esc . Incluido el PAR. Para más detalles, véase el texto. Datos de origen en el archivo adicional 6: Tabla S5

La figura 5c representa los genes de solapamiento entre los escapes identificados en nuestro estudio y el catálogo Balaton-Esc (168 genes incluyendo los genes PAR) . También incluimos un recurso complementario basado en 940 transcriptomas de scRNA-Seq (25 genes de escapistas, Tukiainen-Esc) . El diagrama de Venn muestra que cada uno de los estudios mencionados contribuye al conocimiento actual sobre los escapistas. Los escapes de los dos recursos externos se superponen en 18 de los 25 genes reportados (72%). Como se muestra en la Fig. 5c, el 62% de los escapes reportados de los linfoblastos se superponen con las listas de escapes externos, mientras que los fibroblastos son apoyados por sólo el 38% de superposición. En particular, la mayoría de nuestros genes candidatos a escapistas descubiertos de los fibroblastos (62%) no tienen correspondencia con las otras listas analizadas (Archivo adicional 6: Tabla S5).

Los lncRNAs amplían la lista de candidatos a escapistas

Ampliamos nuestro análisis a los RNAs largos no codificantes (lncRNAs) utilizando los mismos criterios de escapistas que los utilizados para los genes codificantes (Fig. 6). En total, identificamos 15 lncRNAs como candidatos a escapar, entre los cuales sólo unos pocos habían sido estudiados previamente. Se muestra la localización de los lncRNAs y de los escapes codificantes a lo largo de ChrX (Fig. 6a). Comprobamos las posiciones de los escapes a lo largo de la ChrX en relación con todos los genes de la ChrX. Mientras que la distribución posicional para los escapes de lncRNAs es similar (prueba de Kolmogorov-Smirnov, valor p = 0,57), es diferente para los escapes de codificación (prueba de Kolmogorov-Smirnov, valor p = 0,004, Fig. 6a).

Fig. 6

LncRNAs asignados como escapes, y los grupos de escapes según su nivel de confianza. a La dispersión de los escapes a lo largo de ChrX. Los escapes que pertenecen a los lncRNAs y a los genes codificantes se indican por encima y por debajo del esquema de ChrX, respectivamente. b Una tabla que enumera los 15 candidatos a escapes de lncRNAs. El color naranja indica escapista y el gris inactivado. Una asignación que se basa en un solo iSNP está etiquetada con naranja claro. El blanco indica la falta de informe o la ausencia de expresión. XIC, región del centro de inactivación de X. c Partición de los 75 genes que se mencionaron como candidatos a escapista en este estudio. Las categorías están etiquetadas como «confirmado», «aprobado», «probable» y «posible» (véase el texto). Los dos recursos externos que se utilizan para definir los grupos son de la literatura y de single-cell by . Para un grupo de ‘probable’ escapado, utilizamos la anotación de escapado de como evidencia. Nótese que 11 de los 15 genes lncRNA listados están incluidos en el grupo de ‘posibles’ escapistas. d Un resumen de los grupos basados en la evidencia para 75 genes. Los genes están ordenados según los 4 grupos de evidencia (como en c) Los escapes están coloreados en naranja. El naranja claro indica los escapes que están apoyados por una sola evidencia de una sola célula en los fibroblastos. Los genes inactivados están coloreados en gris. El color blanco indica ausencia de expresión o falta de informe. La evidencia de la célula está codificada por colores mostrando el apoyo de una (azul claro) o múltiples células (azul oscuro). Los casos en los que las pruebas se basan sólo en Pool100 también están marcados en azul claro. Los genes PAR y los lncRNAs están marcados. Los datos de origen se encuentran en el Archivo Adicional 6: Tabla S5

La Figura 6b enumera los 15 genes lncRNA escapados identificados, entre los que se encuentran genes ncRNA del XIC que coordinan la activación y el mantenimiento de la inactivación del X. Muchos de los lncRNAs están localizados en segmentos transcripcionalmente activos (por ejemplo, dentro del PAR o del XIC), mientras que otros están localizados en regiones no conservadas que están enriquecidas con ncRNAs largos y cortos. Para los lncRNAs adicionales, incluyendo los genes inactivados, véase el archivo adicional 7: Tabla S6.

La partición basada en la evidencia de los genes escapistas

La Figura 6c resume la partición según la evidencia para todos los genes que se reportan con cualquier nivel de confianza como escapistas (archivo adicional 6: Tabla S5). Esta lista incluye 75 candidatos que se reportan en este estudio, incluyendo la evidencia de Pool100, una colección de nuevos lncRNAs. La Figura 6d proporciona una lista detallada de los hallazgos de estos datos a la vista de los recursos externos de Serval. El número de células que proporcionan evidencia también se indica para cada gen.

Tomando en cuenta estos recursos externos, emparejamos cada gen según la calidad del apoyo independiente asociado a él (Fig. 6c y d). En concreto, dividimos la lista de 75 genes en cuatro grupos: (i) Los genes son etiquetados como «confirmados» si son reportados como escapados por ambos recursos externos previamente discutidos . Hay 31 genes de este tipo, para los que este estudio proporciona una confirmación adicional de su identidad como fugitivos. (ii) Otros 7 genes están etiquetados como «aprobados». Estos genes están etiquetados como escapistas por sólo uno de los dos recursos externos. Para estos genes, la evidencia independiente de este estudio aprueba su identidad. (iii) Otros 12 genes adicionales están marcados como «probables» escapistas. Estos genes se asignan según el acuerdo con un informe externo adicional que informa sobre 114 escapes , que no se incluyó en el catálogo basado en la literatura , y por lo tanto se puede considerar como un recurso independiente. (iv) Otros 25 genes están marcados como «posibles» fugitivos. Estos genes carecen de cualquier evidencia bibliográfica que respalde su identidad, por lo que su asignación como escapistas sigue siendo menos respaldada. Entre ellos, 5 genes se apoyan sólo en la célula atípica del linfoblasto y, por tanto, es probable que sean falsos. En este conjunto, hay 10 genes adicionales que no fueron reportados por ninguno de los tres recursos externos discutidos , La mayoría de los lncRNAs pasados por alto pertenecen a este grupo. Dos de estos lncRNAs pasados por alto (TCONS_00017125, y TCONS_00017281, Fig. 6b) están localizados en la región PAR que es excepcionalmente activa en la transcripción bialélica. Los datos fuente de la Fig. 6d se encuentran en el archivo adicional 6: Tabla S5.

admin

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

lg