Ein Rahmen für die Messung des Entkommens aus der X-Inaktivierung in Einzelzellen

Wir identifizieren die Entkommenen, indem wir die Genexpression von somatischen Einzelzellen mit der scRNA-Seq-Methode analysieren (siehe Methoden). Um die Empfindlichkeit der Methode zu bewerten, vergleichen wir die Expression des X-Chromosoms (ChrX) mit der anderer autosomaler Chromosomen. Insbesondere haben wir uns auf das genreiche Chromosom 17 (Chr17) als Prototyp eines autosomalen Chromosoms konzentriert. Chr17 wurde ausgewählt, da es ein Chromosom mit einer minimalen Anzahl elternspezifischer geprägter Gene darstellt. Die quantitativen Eigenschaften von ChrX und Chr17 sind in Abb. 1a aufgeführt.

Abb. 1

Arbeitsablauf zur Identifizierung von Escape-Genen aus Einzelzellen. a Die quantitativen Eigenschaften von ChrX und Chr17 sind gemäß GRCh37 (GRC Human Build 37) aufgeführt. b Ein Schema für die Analyse von primären Einzelzell-Fibroblasten. Die beiden Farben für die Zellkerne stellen die zufällige Auswahl von Xa dar. Im Kontext von Fibroblasten weist jedes Xa ein anderes Expressionsmuster für die hSNPs auf. Jeder der iSNPs kann der Referenz (R) oder dem alternativen Allel (A) zugeordnet werden. Wenn eine Zelle mit einem Xa ein Expressionsmuster von A R A aufweist, wird eine Zelle mit dem alternativen Xa R A R exprimieren. Aufgrund der zufälligen X-Inaktivierung und der fehlenden Phasierung der hSNPs basiert die Annotation eines Gens als Escapee ausschließlich auf dem mehrfachen Nachweis von iSNPs mit biallelischer Expression. Die illustrative Tabelle zeigt die Analyse der iSNPs von jedem der hSNPs (links) in jeder der Zellen als A oder R und die Annotation eines Gens entsprechend der Häufung der iSNPs-Nachweise. Die Abbildung markiert hSNPs aus 4 Einzelzellen (Zelle-1 bis Zelle-4). Die hSNPs sind mit 3 Genen assoziiert (markiert als Gen a bis Gen c). Gen a ist das einzige Gen mit mehreren biallelischen iSNPs und wird daher als Escapee-Gen (Esc) annotiert. Die anderen beiden Gene haben entweder keine biallelischen iSNPs (Gen b) oder nur einen einzigen iSNP als Beweis für biallelische Expression (Gen c) und werden daher als Inaktiviertes Gen (Ina) annotiert. c Das Schema für die einzelnen Zellen klonaler Lymphoblasten. Im Gegensatz zu primären Fibroblasten (b) ist der elterliche Ursprung von Xa für alle Zellen identisch. In diesem Fall der Zelllinie GM12878 ist Xa mit dem mütterlichen (M) Allel assoziiert (symbolisiert durch rosa gefärbte Kerne). Bei Lymphoblasten reicht das Vorhandensein eines väterlichen Allels (markiert als P) aus, um einen iSNP zu identifizieren, der von Xi exprimiert wird und somit potenziell als Escapee annotiert werden kann. Die Tabelle auf der rechten Seite unterstreicht die Zuordnung von Lymphoblasten zu Ausreißern. Die Kategorien der Tabelle sind dieselben wie in (b). Einzelheiten zum Arbeitsablauf und zu den angewandten Protokollen finden Sie in Zusatzdatei 1: Text und Abbildung S1

Diese Studie basiert auf der Analyse von zwei Quellen weiblichen Ursprungs: (i) Primäre UCF1014-Fibroblasten (mit 104 Zellen, siehe Methoden). Dieser Datensatz ist durch transkriptomische Daten mit höherem Abdeckungsgrad spezifiziert, enthält jedoch keine Informationen über die Haplotyp-Phasierung (Abb. 1b); (ii) ein kleinerer Datensatz von klonalen Lymphoblasten (n = 25) aus der GM12878-Zelllinie mit vollständig phasierten und sequenzierten diploiden Elterngenomen (Abb. 1c). In beiden Datensätzen ist die Transkription an heterozygoten SNPs (hSNPs) die Informationsquelle für die Bestimmung der monoallelischen oder biallelischen Expression. Jeder hSNP in jeder Zelle, der durch Expressionsnachweise oberhalb eines vorgegebenen Schwellenwerts unterstützt wird, gilt als informativer SNP (iSNP) (siehe Methoden, Additional file 1: Text). Die Summe der iSNPs pro Gen definiert dessen eindeutige Kennzeichnung als inaktiviertes oder Escape-Gen (siehe Methoden, Abb. 1b-c, Zusatzdatei 1: Text).

Quantifizierung biallelischer Expression aus primären Einzelzell-Fibroblasten

Wir analysierten die veröffentlichten scRNA-Seq-Daten von weiblichen primären menschlichen Fibroblasten. Vor der Analyse haben wir uns um einen experimentellen Fallstrick gekümmert, der für viele Einzelzellstudien relevant ist. Dieser Fallstrick betrifft Zelldoppelungen, bei denen mehr als eine Zelle pro Bibliothek sequenziert wird. In einem solchen Szenario erzeugen unterschiedliche aktive X-Chromosomen (Xa) aus zwei verschiedenen Zellen, die in der Probe enthalten sind, ein biallelisches Signal entlang des gesamten X-Chromosoms. Der Anteil der Doubletten dürfte zwar gering sein, kann aber zu Fehlinterpretationen führen. Bevor wir die Daten der Fibroblasten analysierten, haben wir daher alle 104 Fibroblasten erneut untersucht und ihr biallelisches Verhältnis in Bezug auf ChrX getestet (siehe Methoden). Drei Zellen wiesen ein außergewöhnlich hohes Maß an biallelischer Expression auf, was auf eine Mischung aus zwei elterlichen X-Chromosomen hindeuten könnte (Zusatzdatei 1: Text und Abbildung S3). Wir entfernten alle drei verdächtigen Zellen aus allen Analysen.

Als Nächstes zählten wir für jede einzelne Zelle die Anzahl der Reads, die eindeutig hSNP-Allelen zugeordnet waren. Das Allelverhältnis (AR) für jeden iSNP ist definiert als der Anteil der Reads, die dem alternativen Allel (Alt) zugeordnet sind, an der Gesamtzahl der Reads (siehe Methoden, Zusatzdatei 2: Tabelle S1). Abbildung 2a-c fasst die AR von ChrX, Chr17 und den gesamten autosomalen Chromosomen entsprechend der primären Fibroblasten-Sammlung (101 von 104 Zellen) zusammen. Darüber hinaus zeigt Abb. 2d die Verteilung der AR eines annotierten Satzes von geprägten Genen aus Hautgeweben (nach ). Wie bereits berichtet, ist eine Verzerrung der Zuordnung zum Referenzgenom (AR = 0) offensichtlich (Abb. 2a-d). Darüber hinaus wurde bei allen getesteten Sets ein erheblicher Anteil an monoallelischer Expression beobachtet (Abb. 2a-d). Dieses dominante Auftreten monoallelischer Expression in einzelnen Zellen wird durch eine Kombination aus einer zu geringen Anzahl von Transkripten und einem Phänomen verursacht, das als „transcriptional bursting“ bekannt ist.

Abb. 2

Die Verteilung des Allelverhältnisses (AR) für jeden SNP als Bruchteil der Zuordnungen für Alternative (Alt) aus Alt- und Referenzallelen (Ref). Die X-Achse in den oberen Histogrammen reicht von 0 bis 1,0, wobei 0 anzeigt, dass alle Zuordnungen mit dem Ref-Allel assoziiert sind, und 1 alle Zuordnungen für das Alt-Allel anzeigt. Da die Mehrzahl der iSNPs mit AR-Werten von 0 oder 1 zugeordnet sind, wird jede Analyse durch zwei Histogramme dargestellt. Das untere Histogramm konzentriert sich auf die nicht monoallelen iSNPs und umfasst alle AR-Werte mit Ausnahme von AR = 0 und AR = 1. Der Prozentsatz der iSNPs, die in den unteren Histogrammen enthalten sind, wird angezeigt. Die Verteilungen der AR sind für Chr17 (a), autosomale Chromosomen (b), ChrX (c) und geprägte Gene (d) dargestellt. Quelldaten siehe Zusatzdatei 3: Tabelle S2

Wir konzentrierten uns nur auf iSNPs, die eine nicht-monoallelische Signatur aufweisen (d. h. ohne AR = 0 und AR = 1). Wir beobachteten einen deutlichen Unterschied in der AR-Verteilung von ChrX und geprägten Genen im Vergleich zu Chr17 und allen autosomalen Chromosomen (vgl. Abb. 2a bis b und Abb. 2c bis d). Aus den in Abb. 2 gezeigten Ergebnissen lassen sich daher mehrere Schlüsse ziehen: (i) Chr17 und alle autosomalen Chromosomen weisen ein ähnliches AR-Profil auf. (ii) Eine klare Tendenz zur ausgewogenen Expression (AR = 0,5) ist für alle autosomalen Chromosomen erkennbar (Abb. 2a-b), nicht aber für ChrX oder geprägte Gene (Abb. 2c-d). (iii) Der Anteil der nicht monoallelen Expression ist bei autosomalen Chromosomen höher (~ 18 %) als bei ChrX (~ 9 %). (iv) Der Anteil der nicht monoallelen Expression bei geprägten Genen liegt auf einem mittleren Niveau (13 %). Ein solches mittleres Niveau spiegelt wahrscheinlich die inhärente Inkonsistenz in der Identität der geprägten Gene wider. Zusätzliche Datei 3: Tabelle S2 listet die unterstützenden iSNPs für alle analysierten Chromosomen in Fibroblasten auf, einschließlich des geprägten Gensatzes.

Identifizierung von Escape-Genen in primären Einzelzell-Fibroblasten

Im Datensatz der primären Fibroblasten gibt es 232 und 485 Gene, die durch iSNPs für ChrX bzw. Chr17 unterstützt werden. Da diesen Zellen Informationen über die Genomphase fehlen (Abb. 1b), beschränken sich die Informationen über das Entweichen aus dem X-Chromosom auf den Satz biallelischer iSNPs (siehe Abb. 1b). Wir haben die iSNPs nach den entsprechenden Genen aggregiert (Abb. 1b). Die Aggregation erfolgt über verschiedene Einzelzellen und über mehrere iSNPs innerhalb eines bestimmten Zell-Gen-Paares. Ein Gen wird als Escapee-Kandidat bezeichnet, wenn es mit mehreren biallelischen iSNPs assoziiert ist. Insgesamt haben wir 24 solcher Gene identifiziert (Tabelle 1), die 10,3 % aller exprimierten Gene in ChrX ausmachen. Wie erwartet ist der Anteil der Gene auf Chr17, die biallelische Expression aufweisen, wesentlich höher (49,3 %, Additional file 4: Table S3).

Table 1 Escapees aus 101 primären Einzelzell-Fibroblasten. Eine vollständige Liste aller Gene findet sich in Zusatzdatei 3: Tabelle S4

Tabelle 1 listet die Escape-Kandidaten mit unterschiedlichem Grad an Unterstützung auf. Zum Beispiel werden die Gene ZFX (Zinc finger X-chromosomal protein) und SMC1A (Structural maintenance of chromosomes protein 1A) mit 103 bzw. 19 biallelischen iSNPs stark unterstützt. Eine weitere Erhöhung der Zuverlässigkeit bei der Identifizierung von Ausreißern ist möglich, wenn mindestens zwei unabhängige Zellen Informationen über die biallelische Expression liefern. Wir zeigen, dass 21 von 24 Genen dieses strenge Kriterium erfüllten (Tabelle 1). Bemerkenswert ist, dass wir unter den identifizierten Escape-Genen nur drei PAR-Gene (SLC25A6, CD99 und DHRSX, Tabelle 1) gefunden haben. Die Einstufung dieser Gene als Escape-Gene stimmt mit der erwarteten PAR-Expression überein. Ausgehend von der Anzahl der biallelischen PAR-Gene unter den exprimierten PAR-Genen schätzten wir die falsch-negative Entdeckungsrate für Escape-Gene auf bis zu 70 % (d. h., 7 von 10 exprimierten PAR-Genen wurden übersehen). Zusätzliche Datei 4: Tabelle S3 zeigt die Unterstützung für Tabelle 1.

Quantifizierung der allelischen Expression aus klonal phasierten Lymphoblasten

Eine wesentliche Einschränkung des oben beschriebenen Protokolls betrifft das Fehlen der elterlichen Haplotyp-Phasierung. Unter diesen Bedingungen können die iSNPs nicht Xa oder Xi zugeordnet werden. Folglich schränkt die zufällige Wahl von Xi, die die primären Zellen charakterisiert, die Entdeckungsrate für Escapees ein. Wir haben die Analyse von scRNA-Seq auf Lymphoblasten weiblichen Ursprungs aus der klonalen Zelllinie GM12878 erweitert. Siehe Abb. 1c und Additional file 1: Abbildung S4.

Abbildung 3a zeigt das Expressionsprofil für klonale Lymphoblasten-Einzelzellen (n = 25) (Zusatzdatei 2: Tabelle S1, Zusatzdatei 5: Tabelle S4). In jeder einzelnen Zelle spiegelt die monoallelische Expression die Kombination aus einer zu geringen Anzahl von Transkripten und dem Phänomen des transkriptionellen Bursting wider. Es ist klar, dass die maternale Expression des Xa dominiert (Abb. 3a, oben). Eine Beobachtung, die mit dem berichteten maternalen Xa-Ursprung der Zelllinie GM12878 übereinstimmt. In den meisten der untersuchten Zellen stammt ein kleiner, aber wesentlicher Anteil der gemessenen Gesamtexpression vom väterlichen Xi-Chromosom (Abb. 3a, oben). Im Gegensatz dazu zeigen Chr17 und die autosomalen Chromosomen eine gleiche Expression von beiden Allelen (Abb. 3a, mittlere und untere Felder).

Abb. 3

Quantifizierung der iSNPs-Markierungen von 25 Einzelzell-Lymphoblasten. a Jede einzelne Zelle ist entsprechend ihrer markierten allelischen iSNPs auf ChrX, Chr17 und allen autosomalen Chromosomen aufgeteilt. Die iSNPs sind mit mütterlicher (rosa), väterlicher (hellblau) und ausgeglichener Expression (grau) assoziiert. Die Zellen sind von links nach rechts nach ihren iSNP-Beiträgen geordnet (Zusatzdatei 1: Abbildung S4). Rechts ist die zusammenfassende Statistik des Pool100 dargestellt. b Eine Zusammenfassung der Verteilung der iSNPs-Tags für alle 25 Einzelzellen auf ChrX, Chr17 und autosomalen Chromosomen. c Eine Zusammenfassung der Verteilung der iSNPs-Tags für Pool100. Die blauen und rosa Farben sind mit den väterlichen bzw. mütterlichen Allelen verbunden. Das gestreifte Muster weist auf biallelische iSNPs hin, die zu den väterlichen (blau) oder mütterlichen (rosa) Allelen tendieren. Für einzelne Zellen basieren die Daten auf 375 iSNPs für ChrX, 808 iSNPs für Chr17 und 20.212 iSNPs für autosomale Chromosomen. Die Daten von Pool100 beruhen auf 211 iSNPs für ChrX, 216 für Chr17 und 5360 iSNPs für autosomale Chromosomen. Für die Quelldaten siehe Additional file 5: Table S4

Aus der Abbildung ist ersichtlich, dass das Phänomen des Transkriptionsbursts alle Chromosomen einschließlich ChrX betrifft. Um die Auswirkungen dieses Phänomens auf die Identifizierung von Genen als Ausreißer zu bewerten, haben wir einzelne Zellen mit einem Zellpool (Pool100, Abb. 3a, rechter Balken) verglichen. Während die Mehrzahl der iSNPs von Chr17 biallelische Profile aufweisen, wird ChrX weiterhin von einer mütterlichen monoallelischen Expression dominiert.

Abbildung 3b zeigt eine aggregierte Ansicht von ChrX, Chr17 und den autosomalen Chromosomen. Die Daten beruhen auf 375, 808 bzw. 20.212 exprimierten hSNPs. Abbildung 3b (mittleres und rechtes Feld) zeigt eine gleichmäßige Aufteilung der elterlichen Allele von Chr17 und den autosomalen Chromosomen (Abb. 3b, oben). Die Durchführung der gleichen Analyse mit Daten aus Pool100 (Abb. 3c) zeigt, dass die Verteilung der elterlichen Allele praktisch unverändert bleibt (vergleichen Sie den Anteil der rosa und blauen Farben, Abb. 3b-c). Zusätzlich beobachteten wir eine Verschiebung von einer monoallelischen (Abb. 3b-c, gefüllte Farbe) zu einer biallelischen Expression (Abb. 3b-c, gestrichene Farbe). Der Anteil der biallelischen Expression für Ch17 stieg von 19 % in Einzelzellen auf 80 % in Pool100 und für autosomale Chromosomen von 18 auf 79 % (Abb. 3c, mittlere und rechte Felder). Die Ergebnisse von Pool100 zeigen, dass die in Einzelzellen beobachtete monoallelische Expression durch Mittelung des Signals praktisch aufgehoben wird.

Die Ergebnisse von ChrX (Abb. 3b (links)) unterscheiden sich grundlegend von denen von Chr17 oder den autosomalen Chromosomen (Abb. 3b-c). Der bemerkenswerteste Unterschied ist, dass nur 21 % der exprimierten iSNPs mit dem väterlichen Xi-Allel in ChrX assoziiert sind (Abb. 3b, oben). Darüber hinaus bleibt bei der Analyse von Pool100 der Anteil der biallelischen Expression begrenzt (eine Verschiebung von 9 % in einzelnen Zellen auf 34 % in Pool100). Das beobachtete Muster von ChrX aus Pool100 (Abb. 3c, links) lässt sich am besten durch eine Mittelwertbildung des stochastischen monoallelischen Signals (im gleichen Maße wie bei den anderen Chromosomen) erklären, wobei ein starkes Signal der monoallelischen Xa-Expression erhalten bleibt. Siehe Zusatzdatei 5: Tabelle S4 für das Lymphoblasten-Allelverhältnis aller getesteten Chromosomen und den Pool100.

Identifizierung von Escape-Genen aus Einzelzell-Lymphoblasten

Abbildung 4a ist eine gen-zentrierte Ansicht, die die iSNP-Allel-Verteilung aus Lymphoblasten zeigt (eingefärbt nach ihrer Herkunft als mütterliche, väterliche oder gemischte Expression, siehe Methoden). Nur die Teilmenge der Gene, die von mehreren iSNPs unterstützt werden, ist entsprechend ihrer Anordnung entlang der Chromosomen aufgeführt. Insgesamt berichten wir über 93 annotierte Gene auf ChrX (Abb. 4a, 30 Ausreißer und 63 inaktivierte Gene). Man beachte, dass die X-inaktivierten Gene für Gene stehen, die hauptsächlich vom mütterlichen Xa exprimiert werden. Ein Cluster von Genen mit väterlicher Expression an der Spitze des p-Arms von ChrX repräsentiert die erwartete biallelische Expression der PAR-Gene (Abb. 4a). Weitere Belege für väterliche Expression sind im XIC mit Genen wie XIST, JPX und FTX zu finden. Während die meisten Escapees durch eine begrenzte Anzahl von iSNPs unterstützt werden, werden einige von ihnen wie ZFX, CD99 und SLC25A6 durch eine relativ große Anzahl von unterstützenden iSNPs (48, 38 bzw. 34) unterstützt.

Abb. 4

Eine genzentrische Partition von Allelen aus Lymphoblastenzellen. a Für jedes Gen auf ChrX ist die iSNPs-Parentalpartition zusammen mit der Anzahl der iSNPs dargestellt. Aus Gründen der Übersichtlichkeit sind nur Gene aufgeführt, die von > = 2 iSNPS unterstützt werden. Die insgesamt 93 Gene in ChrX sind in ihrer Reihenfolge auf dem Chromosom aufgeführt. Der Farbcode entspricht der Kennzeichnung der iSNP als väterliche, mütterliche und ausgeglichene Expression. Für die Quelldaten siehe Zusatzdatei 5: Tabelle S4. b-c Korrelation zwischen den Expressionsniveaus der väterlichen und mütterlichen Allele. Die Streudiagramme zeigen die Expressionsniveaus von Genen nach der Anzahl der Reads, die mit mütterlichen (x-Achse) und väterlichen (y-Achse) Allelen assoziiert sind. Die Anzahl der analysierten Gene für jedes Streudiagramm ist angegeben (auf der x-Achse, in Klammern). Die gezeigten Daten stammen von Chr17 (b) und ChrX (c) und basieren auf einzelnen Zellen und Pool100. Beachten Sie, dass die Anzahl der Reads für die Pool100-Daten im Vergleich zu den kumulativen Daten aus Einzelzellen um das 10-fache geringer ist. Für die Quelldaten siehe Additional file 4: Table S3

Eine alternative Methode zur Beurteilung des Ausmaßes des Phänomens der X-Inaktivierung ist die Quantifizierung der Evidenz direkt aus der Summe aller sequenzierten Reads (abgekürzt als read-based protocol). In den Abbildungen 4b-c werden die Read-Zahlen von Chr17 (Abb. 4b) und ChrX (Abb. 4c) nach väterlichem und mütterlichem Ursprung verglichen. Wir vergleichen die Expressionsdaten aus den einzelnen Zellen und dem Pool100. Die lineare Regression für die Genexpression von Chr17 zeigt eine hohe Korrelations-Fitlinie (r2 = 0,823, Abb. 4b). Wie erwartet, ist die Korrelation bei den Daten aus dem Pool100 stärker (r2 = 0,946, Abb. 4b). Daraus schließen wir, dass trotz der monoallelischen Expression aufgrund des transkriptionellen Bursting-Phänomens eine ausgewogene allelische Expression aller Gene stark unterstützt wird. Für ChrX ist die sich daraus ergebende lineare Regression der Einzelzellen jedoch schlecht (r2 = 0,238, Abb. 4c) und wurde auch durch die Daten aus dem Pool100 nicht verbessert (r2 = 0,222, Abb. 4d). Die Untersuchung der Expressionsdaten für ChrX zeigt, dass sich die Regressionslinien in Richtung der mütterlichen Xa-Expression neigen (x-Achse). Die Expressionsdaten stimmen mit zwei verschiedenen Regressionslinien für ChrX überein. Eine, die mit den inaktivierten Genen übereinstimmt (parallel zur x-Achse), und die andere, die mit einer vertrauenswürdigen biallelischen Expression übereinstimmt.

Die Anwendung des konservativen iSNP-basierten Protokolls führt zur Identifizierung von 30 Genen als Escape-Kandidaten, die auch durch das Read-basierte Protokoll unterstützt werden (Tabelle 2). Das lesebasierte (d. h., (d. h. die Kennzeichnung eines Gens als Escapee durch eine minimale Anzahl von väterlichen Reads, siehe Methoden) erweiterte die Liste der Escapee-Kandidaten auf insgesamt 49 Gene (Zusätzliche Datei 4: Tabelle S3).

Tabelle 2 Escapees aus 25 klonalen Einzelzell-Lymphoblasten

Die Prüfung der elterlichen Herkunft von Allelen entlang eines Gens in derselben Zelle ist ein strenger Test für die Zuverlässigkeit der iSNPs. Dieser Test ist nur bei Genen mit mehreren hSNPs gültig. Solche Gene, die mit zwei oder mehr exprimierenden hSNPs unterstützt werden, machen 44 % der Gene aus. Wir betrachten ein Gen als konsistent, wenn die Expression entlang des Gens in einer bestimmten Zelle nicht monoallel zu beiden Allelen ist. Insgesamt haben wir 3 inkonsistente Gene identifiziert – TEX11, FTX und ZCCHC16. Bei weiteren 6 Genen ist die Inkonsistenz nur teilweise gegeben, da es andere Beobachtungen biallelischer Expression gibt. Die Schätzung der vollständigen Inkonsistenz (3 von 29 Genen, die für diesen Test in Frage kamen) lässt auf eine Obergrenze für eine fehlerhafte Interpretation von 10 % schließen. Außerdem identifizierte das iSNP-basierte Protokoll 9 der 11 exprimierten PAR-Gene. Daher extrapolieren wir die Erkennungsrate der Ausreißer auf 82 %. Interessanterweise ergab die Analyse von Chr17 unter der Annahme, dass es keine systematische allelische Verzerrung gibt, dass 7,3 und 9,6 % der Gene mit mütterlicher bzw. väterlicher monoallelischer Expression assoziiert waren. Diese Ergebnisse liefern eine Obergrenze von 17,9 % für die Wahrscheinlichkeit einer falschen Genkennzeichnung in Chr17 und können zur Abschätzung der Grenzen der Methode herangezogen werden.

Die Forderung nach väterlichem Nachweis aus mindestens zwei Zellen reduziert die Zahl der Ausreißer von 49 auf 18 (einschließlich 5 PAR-Gene). Viele einzelne Evidenzgene resultieren aus einer bestimmten Ausreißerzelle (SRR764803), die zu 17 der 49 gemeldeten Gene beitrug (Tabelle 2, Zusatzdatei 5: Tabelle S4). Diese Zelle weist die höchsten Expressionswerte sowohl auf ChrX als auch auf Chr17 auf (Zusatzdatei 1: Text und Abbildung S4). Tabelle 2 listet die entdeckten Escape-Kandidaten zusammen mit ihren Belegen auf (Tabelle 2).

Vergleich der identifizierten Escape-Gene mit dem aktuellen Wissensstand

Wir haben die Übereinstimmung zwischen den identifizierten Escape-Genen aus unserer Studie und einem literaturbasierten Katalog getestet. Dieser einheitliche Katalog wurde aus der Integration von vier unabhängigen Studien zusammengestellt und umfasst 1144 Gene aus ChrX. Die Gene in diesem Katalog werden manuell in neun definierte Kategorien eingeteilt (siehe Methoden). Die größte Kategorie umfasst die Gene, zu denen keine Informationen vorliegen (45 %). Etwa 15 % der Gene (168/1144) gelten als „ausbrecherassoziiert“ (siehe Methoden). Wir betrachten den kompilierten Satz von „escapee-associated“-Genen als Goldstandard, um die Entdeckungsrate von escapee in unserer Studie zu testen (insgesamt 124 Gene, ohne PAR-Gene, zusammen Balaton-Esc genannt).

Wir haben einen hypergeometrischen statistischen Test (siehe Methoden) angewandt, um die Überlappung der verschiedenen escapee-Genlisten zu bewerten (Abb. 5). Abbildung 5a zeigt die Anzahl der identifizierten Escape-Gene aus den Fibroblasten und Lymphoblasten (ohne PAR-Gene). Beachten Sie, dass nur Gene, die im Balaton-Esc-Benchmark enthalten sind, in diese Analyse einbezogen wurden (Abb. 5). Abbildung 5b zeigt die statistische Signifikanz der Überlappung zwischen den Genlisten aus Abb. 5a und Balaton-Esc. Wie man sieht, gibt es eine signifikante Überlappung zwischen den Escape-Genen aus Lymphoblasten (Tabelle 2 und Additional file 4: Tabelle S3) und der Balaton-Esc-Liste (Abb. 5b, p-value = 7.43E-8). Die Anwendung desselben Tests für die primären Fibroblasten (Tabelle 1) ergab eine geringere Signifikanz (p-Wert = 4,07E-2).

Abb. 5

Identifizierte Escape-Gene und statistische Signifikanz der Überlappung mit dem von Balaton et al. zusammengestellten literaturbasierten Katalog. a Die Anzahl der Escape-Gene, die durch jede der Analysen identifiziert wurden. Die Zahlen umfassen nur Gene, die in Balaton et al. vorhanden waren, und schließen PAR-Gene aus. b Statistische Analyse auf der Grundlage der hypergeometrischen Verteilung, die die Überlappung zwischen der von Balaton et al. vorgelegten literaturbasierten Liste und den in dieser Studie zugewiesenen Ausreißern (wie in (a)) misst. Die Y-Achse ist der -log10(x) des berechneten p-Wertes. c Venn-Diagramm der 4 Gruppen von Escapees gemäß den analysierten Fibroblasten und Lymphoblasten, der Balaton-Esc-Sammlung und der Tukiainen-Esc. Einschließlich PAR. Für Details siehe Text. Quelldaten in Zusatzdatei 6: Tabelle S5

Abbildung 5c zeigt die Überlappungsgene zwischen den in unserer Studie identifizierten Escapees und dem Balaton-Esc-Katalog (168 Gene einschließlich PAR-Gene) . Wir haben auch eine ergänzende Ressource einbezogen, die auf 940 Transkriptomen aus scRNA-Seq basiert (25 Ausreißergene, Tukiainen-Esc). Das Venn-Diagramm zeigt, dass jede der oben genannten Studien zum aktuellen Wissensstand über Ausreißer beiträgt. Die Escapees aus den beiden externen Quellen überschneiden sich bei 18 der 25 gemeldeten Gene (72 %). Wie aus Abb. 5c hervorgeht, überschneiden sich 62 % der von den Lymphoblasten gemeldeten Escapees mit den externen Escapee-Listen, während bei den Fibroblasten nur 38 % übereinstimmen. Bemerkenswert ist, dass die meisten der von uns entdeckten Escape-Kandidaten-Gene aus Fibroblasten (62 %) keine Übereinstimmung mit den anderen getesteten Listen aufweisen (Zusatzdatei 6: Tabelle S5).

LncRNAs erweitern die Liste der Escape-Kandidaten

Wir haben unsere Analyse auf lange nicht-kodierende RNAs (lncRNAs) ausgeweitet und dabei dieselben Escape-Kriterien wie bei kodierenden Genen verwendet (Abb. 6). Insgesamt identifizierten wir 15 lncRNAs als Escapee-Kandidaten, von denen nur einige wenige zuvor untersucht worden waren. Die Lage der lncRNAs und kodierenden Escape-Gene entlang von ChrX ist dargestellt (Abb. 6a). Wir untersuchten die Positionen der Escape-Gene entlang von ChrX im Verhältnis zu allen ChrX-Genen. Während die Positionsverteilung für lncRNA-Escape-Gene ähnlich ist (Kolmogorov-Smirnov-Test, p-Wert = 0,57), ist sie für kodierende Escape-Gene anders (Kolmogorov-Smirnov-Test, p-Wert = 0,004, Abb. 6a).

Abb. 6

LncRNAs, die als Escapees zugewiesen wurden, und die Gruppen der Escapees nach ihrem Konfidenzniveau. a Die Ausbreitung der Escapees entlang ChrX. Die Escapees, die zu den lncRNAs und zu den kodierenden Genen gehören, sind oberhalb bzw. unterhalb der Schemata von ChrX angegeben. b Eine Tabelle mit den 15 lncRNA-Escapee-Kandidaten. Die orange Farbe zeigt Escapee an und die graue inaktiviert. Eine Zuordnung, die auf einem einzigen iSNP beruht, ist hellorange markiert. Die weiße Farbe zeigt an, dass kein Bericht oder keine Expression vorliegt. XIC, X inactivation center region. c Aufteilung der 75 Gene, die in dieser Studie als Escapee-Kandidaten genannt wurden. Die Kategorien sind mit „bestätigt“, „zugelassen“, „wahrscheinlich“ und „möglich“ gekennzeichnet (siehe Text). Die beiden externen Quellen, die zur Definition der Gruppen herangezogen werden, stammen aus der Literatur und aus Einzelzellen von . Für eine Gruppe von ‚wahrscheinlichen‘ Ausreißern haben wir die Annotation von Ausreißern als Beweis verwendet. Beachten Sie, dass 11 der 15 aufgelisteten lncRNA-Gene in der Gruppe der „möglichen“ Ausreißer enthalten sind. d Eine Zusammenfassung der evidenzbasierten Gruppen für 75 Gene. Die Gene sind nach den 4 Evidenzgruppen sortiert (wie in c). Die Ausreißer sind orange gefärbt. Hellorange kennzeichnet Ausreißer, die durch einen einzigen Nachweis aus einer einzigen Zelle in Fibroblasten unterstützt werden. Inaktivierte Gene sind grau gefärbt. Weiß bedeutet, dass keine Expression oder kein Bericht vorliegt. Die Zellnachweise sind farbcodiert und zeigen die Unterstützung durch eine (hellblau) oder mehrere Zellen (dunkelblau). Fälle, in denen die Beweise nur auf Pool100 beruhen, sind ebenfalls hellblau markiert. PAR-Gene und lncRNAs sind markiert. Quelldaten finden sich in Additional file 6: Table S5

Abbildung 6b listet alle 15 identifizierten lncRNA-Escape-Gene auf, darunter auch ncRNA-Gene aus dem XIC, die die Aktivierung und Aufrechterhaltung der X-Inaktivierung koordinieren. Viele der lncRNAs sind an transkriptionell aktiven Abschnitten lokalisiert (z. B. innerhalb des PAR oder des XIC), während andere in nicht konservierten Regionen lokalisiert sind, die mit langen und kurzen ncRNAs angereichert sind. Weitere lncRNAs, einschließlich inaktivierter Gene, finden Sie in Zusatzdatei 7: Tabelle S6.

Evidenzbasierte Aufteilung der Escape-Gene

Abbildung 6c fasst die Aufteilung gemäß der Evidenz für alle Gene zusammen, die mit einem beliebigen Vertrauensgrad als Escape-Gene gemeldet werden (Zusatzdatei 6: Tabelle S5). Diese Liste enthält 75 Kandidaten, die in dieser Studie berichtet werden, einschließlich der Evidenz aus Pool100, einer Sammlung neuartiger lncRNAs. Abbildung 6d zeigt eine detaillierte Liste der Ergebnisse aus diesen Daten im Hinblick auf mehrere externe Ressourcen. Die Anzahl der Zellen, die Beweise liefern, ist ebenfalls für jedes Gen angegeben.

Unter Berücksichtigung dieser externen Ressourcen haben wir jedes Gen entsprechend der Qualität der unabhängigen Unterstützung, die mit ihm verbunden ist, zugeordnet (Abb. 6c und d). Konkret haben wir die Liste der 75 Gene in vier Gruppen unterteilt: (i) Gene werden als „bestätigt“ bezeichnet, wenn sie von beiden zuvor besprochenen externen Quellen als Ausreißer gemeldet werden. Es gibt 31 solcher Gene, für die diese Studie eine weitere Bestätigung für ihre Identität als Ausreißer liefert. (ii) Weitere 7 Gene sind als „bestätigt“ gekennzeichnet. Diese Gene werden nur von einer der beiden externen Quellen als Escape-Gene eingestuft. Bei diesen Genen bestätigen die unabhängigen Belege aus dieser Studie ihre Identität. (iii) Weitere 12 Gene sind als „wahrscheinliche“ Ausreißer gekennzeichnet. Diese Gene werden entsprechend der Übereinstimmung mit einem zusätzlichen externen Bericht über 114 Ausreißer zugeordnet, der nicht in den literaturbasierten Katalog aufgenommen wurde und somit als unabhängige Quelle betrachtet werden kann. (iv) Weitere 25 Gene sind als „mögliche“ Ausreißer gekennzeichnet. Für diese Gene gibt es in der Literatur keine Belege für ihre Identität, so dass ihre Einstufung als Ausreißer weniger gesichert ist. Unter ihnen werden 5 Gene nur von der Ausreißerzelle aus dem Lymphoblasten unterstützt und sind daher wahrscheinlich falsch. In diesem Satz gibt es weitere 10 Gene, die von keiner der drei besprochenen externen Ressourcen gemeldet wurden. Die Mehrheit der übersehenen lncRNAs gehört zu dieser Gruppe. Zwei dieser übersehenen escapee lncRNAs (TCONS_00017125 und TCONS_00017281, Abb. 6b) befinden sich in der PAR-Region, die bei der biallelischen Transkription besonders aktiv ist. Die Quelldaten für Abb. 6d sind in Zusatzdatei 6: Tabelle S5 zu finden.

admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

lg