Menschliche Gene, die der X-Inaktivierung entkommen, werden durch Einzelzell-Expressionsdaten aufgedeckt

Ein Rahmen für die Messung des Entkommens aus der X-Inaktivierung in Einzelzellen
Quantifizierung biallelischer Expression aus primären Einzelzell-Fibroblasten
Identifizierung von Escape-Genen in primären Einzelzell-Fibroblasten
Quantifizierung der allelischen Expression aus klonal phasierten Lymphoblasten
Identifizierung von Escape-Genen aus Einzelzell-Lymphoblasten
Vergleich der identifizierten Escape-Gene mit dem aktuellen Wissensstand
LncRNAs erweitern die Liste der Escape-Kandidaten
Evidenzbasierte Aufteilung der Escape-Gene

Ein Rahmen für die Messung des Entkommens aus der X-Inaktivierung in Einzelzellen

Wir identifizieren die Entkommenen, indem wir die Genexpression von somatischen Einzelzellen mit der scRNA-Seq-Methode analysieren (siehe Methoden). Um die Empfindlichkeit der Methode zu bewerten, vergleichen wir die Expression des X-Chromosoms (ChrX) mit der anderer autosomaler Chromosomen. Insbesondere haben wir uns auf das genreiche Chromosom 17 (Chr17) als Prototyp eines autosomalen Chromosoms konzentriert. Chr17 wurde ausgewählt, da es ein Chromosom mit einer minimalen Anzahl elternspezifischer geprägter Gene darstellt. Die quantitativen Eigenschaften von ChrX und Chr17 sind in Abb. 1a aufgeführt.

Diese Studie basiert auf der Analyse von zwei Quellen weiblichen Ursprungs: (i) Primäre UCF1014-Fibroblasten (mit 104 Zellen, siehe Methoden). Dieser Datensatz ist durch transkriptomische Daten mit höherem Abdeckungsgrad spezifiziert, enthält jedoch keine Informationen über die Haplotyp-Phasierung (Abb. 1b); (ii) ein kleinerer Datensatz von klonalen Lymphoblasten (n = 25) aus der GM12878-Zelllinie mit vollständig phasierten und sequenzierten diploiden Elterngenomen (Abb. 1c). In beiden Datensätzen ist die Transkription an heterozygoten SNPs (hSNPs) die Informationsquelle für die Bestimmung der monoallelischen oder biallelischen Expression. Jeder hSNP in jeder Zelle, der durch Expressionsnachweise oberhalb eines vorgegebenen Schwellenwerts unterstützt wird, gilt als informativer SNP (iSNP) (siehe Methoden, Additional file 1: Text). Die Summe der iSNPs pro Gen definiert dessen eindeutige Kennzeichnung als inaktiviertes oder Escape-Gen (siehe Methoden, Abb. 1b-c, Zusatzdatei 1: Text).

Quantifizierung biallelischer Expression aus primären Einzelzell-Fibroblasten

Wir analysierten die veröffentlichten scRNA-Seq-Daten von weiblichen primären menschlichen Fibroblasten. Vor der Analyse haben wir uns um einen experimentellen Fallstrick gekümmert, der für viele Einzelzellstudien relevant ist. Dieser Fallstrick betrifft Zelldoppelungen, bei denen mehr als eine Zelle pro Bibliothek sequenziert wird. In einem solchen Szenario erzeugen unterschiedliche aktive X-Chromosomen (Xa) aus zwei verschiedenen Zellen, die in der Probe enthalten sind, ein biallelisches Signal entlang des gesamten X-Chromosoms. Der Anteil der Doubletten dürfte zwar gering sein, kann aber zu Fehlinterpretationen führen. Bevor wir die Daten der Fibroblasten analysierten, haben wir daher alle 104 Fibroblasten erneut untersucht und ihr biallelisches Verhältnis in Bezug auf ChrX getestet (siehe Methoden). Drei Zellen wiesen ein außergewöhnlich hohes Maß an biallelischer Expression auf, was auf eine Mischung aus zwei elterlichen X-Chromosomen hindeuten könnte (Zusatzdatei 1: Text und Abbildung S3). Wir entfernten alle drei verdächtigen Zellen aus allen Analysen.

Als Nächstes zählten wir für jede einzelne Zelle die Anzahl der Reads, die eindeutig hSNP-Allelen zugeordnet waren. Das Allelverhältnis (AR) für jeden iSNP ist definiert als der Anteil der Reads, die dem alternativen Allel (Alt) zugeordnet sind, an der Gesamtzahl der Reads (siehe Methoden, Zusatzdatei 2: Tabelle S1). Abbildung 2a-c fasst die AR von ChrX, Chr17 und den gesamten autosomalen Chromosomen entsprechend der primären Fibroblasten-Sammlung (101 von 104 Zellen) zusammen. Darüber hinaus zeigt Abb. 2d die Verteilung der AR eines annotierten Satzes von geprägten Genen aus Hautgeweben (nach ). Wie bereits berichtet, ist eine Verzerrung der Zuordnung zum Referenzgenom (AR = 0) offensichtlich (Abb. 2a-d). Darüber hinaus wurde bei allen getesteten Sets ein erheblicher Anteil an monoallelischer Expression beobachtet (Abb. 2a-d). Dieses dominante Auftreten monoallelischer Expression in einzelnen Zellen wird durch eine Kombination aus einer zu geringen Anzahl von Transkripten und einem Phänomen verursacht, das als „transcriptional bursting“ bekannt ist.

Wir konzentrierten uns nur auf iSNPs, die eine nicht-monoallelische Signatur aufweisen (d. h. ohne AR = 0 und AR = 1). Wir beobachteten einen deutlichen Unterschied in der AR-Verteilung von ChrX und geprägten Genen im Vergleich zu Chr17 und allen autosomalen Chromosomen (vgl. Abb. 2a bis b und Abb. 2c bis d). Aus den in Abb. 2 gezeigten Ergebnissen lassen sich daher mehrere Schlüsse ziehen: (i) Chr17 und alle autosomalen Chromosomen weisen ein ähnliches AR-Profil auf. (ii) Eine klare Tendenz zur ausgewogenen Expression (AR = 0,5) ist für alle autosomalen Chromosomen erkennbar (Abb. 2a-b), nicht aber für ChrX oder geprägte Gene (Abb. 2c-d). (iii) Der Anteil der nicht monoallelen Expression ist bei autosomalen Chromosomen höher (~ 18 %) als bei ChrX (~ 9 %). (iv) Der Anteil der nicht monoallelen Expression bei geprägten Genen liegt auf einem mittleren Niveau (13 %). Ein solches mittleres Niveau spiegelt wahrscheinlich die inhärente Inkonsistenz in der Identität der geprägten Gene wider. Zusätzliche Datei 3: Tabelle S2 listet die unterstützenden iSNPs für alle analysierten Chromosomen in Fibroblasten auf, einschließlich des geprägten Gensatzes.

Identifizierung von Escape-Genen in primären Einzelzell-Fibroblasten

Im Datensatz der primären Fibroblasten gibt es 232 und 485 Gene, die durch iSNPs für ChrX bzw. Chr17 unterstützt werden. Da diesen Zellen Informationen über die Genomphase fehlen (Abb. 1b), beschränken sich die Informationen über das Entweichen aus dem X-Chromosom auf den Satz biallelischer iSNPs (siehe Abb. 1b). Wir haben die iSNPs nach den entsprechenden Genen aggregiert (Abb. 1b). Die Aggregation erfolgt über verschiedene Einzelzellen und über mehrere iSNPs innerhalb eines bestimmten Zell-Gen-Paares. Ein Gen wird als Escapee-Kandidat bezeichnet, wenn es mit mehreren biallelischen iSNPs assoziiert ist. Insgesamt haben wir 24 solcher Gene identifiziert (Tabelle 1), die 10,3 % aller exprimierten Gene in ChrX ausmachen. Wie erwartet ist der Anteil der Gene auf Chr17, die biallelische Expression aufweisen, wesentlich höher (49,3 %, Additional file 4: Table S3).

Table 1 Escapees aus 101 primären Einzelzell-Fibroblasten. Eine vollständige Liste aller Gene findet sich in Zusatzdatei 3: Tabelle S4

Tabelle 1 listet die Escape-Kandidaten mit unterschiedlichem Grad an Unterstützung auf. Zum Beispiel werden die Gene ZFX (Zinc finger X-chromosomal protein) und SMC1A (Structural maintenance of chromosomes protein 1A) mit 103 bzw. 19 biallelischen iSNPs stark unterstützt. Eine weitere Erhöhung der Zuverlässigkeit bei der Identifizierung von Ausreißern ist möglich, wenn mindestens zwei unabhängige Zellen Informationen über die biallelische Expression liefern. Wir zeigen, dass 21 von 24 Genen dieses strenge Kriterium erfüllten (Tabelle 1). Bemerkenswert ist, dass wir unter den identifizierten Escape-Genen nur drei PAR-Gene (SLC25A6, CD99 und DHRSX, Tabelle 1) gefunden haben. Die Einstufung dieser Gene als Escape-Gene stimmt mit der erwarteten PAR-Expression überein. Ausgehend von der Anzahl der biallelischen PAR-Gene unter den exprimierten PAR-Genen schätzten wir die falsch-negative Entdeckungsrate für Escape-Gene auf bis zu 70 % (d. h., 7 von 10 exprimierten PAR-Genen wurden übersehen). Zusätzliche Datei 4: Tabelle S3 zeigt die Unterstützung für Tabelle 1.

Quantifizierung der allelischen Expression aus klonal phasierten Lymphoblasten

Eine wesentliche Einschränkung des oben beschriebenen Protokolls betrifft das Fehlen der elterlichen Haplotyp-Phasierung. Unter diesen Bedingungen können die iSNPs nicht Xa oder Xi zugeordnet werden. Folglich schränkt die zufällige Wahl von Xi, die die primären Zellen charakterisiert, die Entdeckungsrate für Escapees ein. Wir haben die Analyse von scRNA-Seq auf Lymphoblasten weiblichen Ursprungs aus der klonalen Zelllinie GM12878 erweitert. Siehe Abb. 1c und Additional file 1: Abbildung S4.

Abbildung 3a zeigt das Expressionsprofil für klonale Lymphoblasten-Einzelzellen (n = 25) (Zusatzdatei 2: Tabelle S1, Zusatzdatei 5: Tabelle S4). In jeder einzelnen Zelle spiegelt die monoallelische Expression die Kombination aus einer zu geringen Anzahl von Transkripten und dem Phänomen des transkriptionellen Bursting wider. Es ist klar, dass die maternale Expression des Xa dominiert (Abb. 3a, oben). Eine Beobachtung, die mit dem berichteten maternalen Xa-Ursprung der Zelllinie GM12878 übereinstimmt. In den meisten der untersuchten Zellen stammt ein kleiner, aber wesentlicher Anteil der gemessenen Gesamtexpression vom väterlichen Xi-Chromosom (Abb. 3a, oben). Im Gegensatz dazu zeigen Chr17 und die autosomalen Chromosomen eine gleiche Expression von beiden Allelen (Abb. 3a, mittlere und untere Felder).

Aus der Abbildung ist ersichtlich, dass das Phänomen des Transkriptionsbursts alle Chromosomen einschließlich ChrX betrifft. Um die Auswirkungen dieses Phänomens auf die Identifizierung von Genen als Ausreißer zu bewerten, haben wir einzelne Zellen mit einem Zellpool (Pool100, Abb. 3a, rechter Balken) verglichen. Während die Mehrzahl der iSNPs von Chr17 biallelische Profile aufweisen, wird ChrX weiterhin von einer mütterlichen monoallelischen Expression dominiert.

Abbildung 3b zeigt eine aggregierte Ansicht von ChrX, Chr17 und den autosomalen Chromosomen. Die Daten beruhen auf 375, 808 bzw. 20.212 exprimierten hSNPs. Abbildung 3b (mittleres und rechtes Feld) zeigt eine gleichmäßige Aufteilung der elterlichen Allele von Chr17 und den autosomalen Chromosomen (Abb. 3b, oben). Die Durchführung der gleichen Analyse mit Daten aus Pool100 (Abb. 3c) zeigt, dass die Verteilung der elterlichen Allele praktisch unverändert bleibt (vergleichen Sie den Anteil der rosa und blauen Farben, Abb. 3b-c). Zusätzlich beobachteten wir eine Verschiebung von einer monoallelischen (Abb. 3b-c, gefüllte Farbe) zu einer biallelischen Expression (Abb. 3b-c, gestrichene Farbe). Der Anteil der biallelischen Expression für Ch17 stieg von 19 % in Einzelzellen auf 80 % in Pool100 und für autosomale Chromosomen von 18 auf 79 % (Abb. 3c, mittlere und rechte Felder). Die Ergebnisse von Pool100 zeigen, dass die in Einzelzellen beobachtete monoallelische Expression durch Mittelung des Signals praktisch aufgehoben wird.

Die Ergebnisse von ChrX (Abb. 3b (links)) unterscheiden sich grundlegend von denen von Chr17 oder den autosomalen Chromosomen (Abb. 3b-c). Der bemerkenswerteste Unterschied ist, dass nur 21 % der exprimierten iSNPs mit dem väterlichen Xi-Allel in ChrX assoziiert sind (Abb. 3b, oben). Darüber hinaus bleibt bei der Analyse von Pool100 der Anteil der biallelischen Expression begrenzt (eine Verschiebung von 9 % in einzelnen Zellen auf 34 % in Pool100). Das beobachtete Muster von ChrX aus Pool100 (Abb. 3c, links) lässt sich am besten durch eine Mittelwertbildung des stochastischen monoallelischen Signals (im gleichen Maße wie bei den anderen Chromosomen) erklären, wobei ein starkes Signal der monoallelischen Xa-Expression erhalten bleibt. Siehe Zusatzdatei 5: Tabelle S4 für das Lymphoblasten-Allelverhältnis aller getesteten Chromosomen und den Pool100.

Identifizierung von Escape-Genen aus Einzelzell-Lymphoblasten

Abbildung 4a ist eine gen-zentrierte Ansicht, die die iSNP-Allel-Verteilung aus Lymphoblasten zeigt (eingefärbt nach ihrer Herkunft als mütterliche, väterliche oder gemischte Expression, siehe Methoden). Nur die Teilmenge der Gene, die von mehreren iSNPs unterstützt werden, ist entsprechend ihrer Anordnung entlang der Chromosomen aufgeführt. Insgesamt berichten wir über 93 annotierte Gene auf ChrX (Abb. 4a, 30 Ausreißer und 63 inaktivierte Gene). Man beachte, dass die X-inaktivierten Gene für Gene stehen, die hauptsächlich vom mütterlichen Xa exprimiert werden. Ein Cluster von Genen mit väterlicher Expression an der Spitze des p-Arms von ChrX repräsentiert die erwartete biallelische Expression der PAR-Gene (Abb. 4a). Weitere Belege für väterliche Expression sind im XIC mit Genen wie XIST, JPX und FTX zu finden. Während die meisten Escapees durch eine begrenzte Anzahl von iSNPs unterstützt werden, werden einige von ihnen wie ZFX, CD99 und SLC25A6 durch eine relativ große Anzahl von unterstützenden iSNPs (48, 38 bzw. 34) unterstützt.

Eine alternative Methode zur Beurteilung des Ausmaßes des Phänomens der X-Inaktivierung ist die Quantifizierung der Evidenz direkt aus der Summe aller sequenzierten Reads (abgekürzt als read-based protocol). In den Abbildungen 4b-c werden die Read-Zahlen von Chr17 (Abb. 4b) und ChrX (Abb. 4c) nach väterlichem und mütterlichem Ursprung verglichen. Wir vergleichen die Expressionsdaten aus den einzelnen Zellen und dem Pool100. Die lineare Regression für die Genexpression von Chr17 zeigt eine hohe Korrelations-Fitlinie (r2 = 0,823, Abb. 4b). Wie erwartet, ist die Korrelation bei den Daten aus dem Pool100 stärker (r2 = 0,946, Abb. 4b). Daraus schließen wir, dass trotz der monoallelischen Expression aufgrund des transkriptionellen Bursting-Phänomens eine ausgewogene allelische Expression aller Gene stark unterstützt wird. Für ChrX ist die sich daraus ergebende lineare Regression der Einzelzellen jedoch schlecht (r2 = 0,238, Abb. 4c) und wurde auch durch die Daten aus dem Pool100 nicht verbessert (r2 = 0,222, Abb. 4d). Die Untersuchung der Expressionsdaten für ChrX zeigt, dass sich die Regressionslinien in Richtung der mütterlichen Xa-Expression neigen (x-Achse). Die Expressionsdaten stimmen mit zwei verschiedenen Regressionslinien für ChrX überein. Eine, die mit den inaktivierten Genen übereinstimmt (parallel zur x-Achse), und die andere, die mit einer vertrauenswürdigen biallelischen Expression übereinstimmt.

Die Anwendung des konservativen iSNP-basierten Protokolls führt zur Identifizierung von 30 Genen als Escape-Kandidaten, die auch durch das Read-basierte Protokoll unterstützt werden (Tabelle 2). Das lesebasierte (d. h., (d. h. die Kennzeichnung eines Gens als Escapee durch eine minimale Anzahl von väterlichen Reads, siehe Methoden) erweiterte die Liste der Escapee-Kandidaten auf insgesamt 49 Gene (Zusätzliche Datei 4: Tabelle S3).

Tabelle 2 Escapees aus 25 klonalen Einzelzell-Lymphoblasten

Die Prüfung der elterlichen Herkunft von Allelen entlang eines Gens in derselben Zelle ist ein strenger Test für die Zuverlässigkeit der iSNPs. Dieser Test ist nur bei Genen mit mehreren hSNPs gültig. Solche Gene, die mit zwei oder mehr exprimierenden hSNPs unterstützt werden, machen 44 % der Gene aus. Wir betrachten ein Gen als konsistent, wenn die Expression entlang des Gens in einer bestimmten Zelle nicht monoallel zu beiden Allelen ist. Insgesamt haben wir 3 inkonsistente Gene identifiziert – TEX11, FTX und ZCCHC16. Bei weiteren 6 Genen ist die Inkonsistenz nur teilweise gegeben, da es andere Beobachtungen biallelischer Expression gibt. Die Schätzung der vollständigen Inkonsistenz (3 von 29 Genen, die für diesen Test in Frage kamen) lässt auf eine Obergrenze für eine fehlerhafte Interpretation von 10 % schließen. Außerdem identifizierte das iSNP-basierte Protokoll 9 der 11 exprimierten PAR-Gene. Daher extrapolieren wir die Erkennungsrate der Ausreißer auf 82 %. Interessanterweise ergab die Analyse von Chr17 unter der Annahme, dass es keine systematische allelische Verzerrung gibt, dass 7,3 und 9,6 % der Gene mit mütterlicher bzw. väterlicher monoallelischer Expression assoziiert waren. Diese Ergebnisse liefern eine Obergrenze von 17,9 % für die Wahrscheinlichkeit einer falschen Genkennzeichnung in Chr17 und können zur Abschätzung der Grenzen der Methode herangezogen werden.

Die Forderung nach väterlichem Nachweis aus mindestens zwei Zellen reduziert die Zahl der Ausreißer von 49 auf 18 (einschließlich 5 PAR-Gene). Viele einzelne Evidenzgene resultieren aus einer bestimmten Ausreißerzelle (SRR764803), die zu 17 der 49 gemeldeten Gene beitrug (Tabelle 2, Zusatzdatei 5: Tabelle S4). Diese Zelle weist die höchsten Expressionswerte sowohl auf ChrX als auch auf Chr17 auf (Zusatzdatei 1: Text und Abbildung S4). Tabelle 2 listet die entdeckten Escape-Kandidaten zusammen mit ihren Belegen auf (Tabelle 2).

Vergleich der identifizierten Escape-Gene mit dem aktuellen Wissensstand

Wir haben die Übereinstimmung zwischen den identifizierten Escape-Genen aus unserer Studie und einem literaturbasierten Katalog getestet. Dieser einheitliche Katalog wurde aus der Integration von vier unabhängigen Studien zusammengestellt und umfasst 1144 Gene aus ChrX. Die Gene in diesem Katalog werden manuell in neun definierte Kategorien eingeteilt (siehe Methoden). Die größte Kategorie umfasst die Gene, zu denen keine Informationen vorliegen (45 %). Etwa 15 % der Gene (168/1144) gelten als „ausbrecherassoziiert“ (siehe Methoden). Wir betrachten den kompilierten Satz von „escapee-associated“-Genen als Goldstandard, um die Entdeckungsrate von escapee in unserer Studie zu testen (insgesamt 124 Gene, ohne PAR-Gene, zusammen Balaton-Esc genannt).

Wir haben einen hypergeometrischen statistischen Test (siehe Methoden) angewandt, um die Überlappung der verschiedenen escapee-Genlisten zu bewerten (Abb. 5). Abbildung 5a zeigt die Anzahl der identifizierten Escape-Gene aus den Fibroblasten und Lymphoblasten (ohne PAR-Gene). Beachten Sie, dass nur Gene, die im Balaton-Esc-Benchmark enthalten sind, in diese Analyse einbezogen wurden (Abb. 5). Abbildung 5b zeigt die statistische Signifikanz der Überlappung zwischen den Genlisten aus Abb. 5a und Balaton-Esc. Wie man sieht, gibt es eine signifikante Überlappung zwischen den Escape-Genen aus Lymphoblasten (Tabelle 2 und Additional file 4: Tabelle S3) und der Balaton-Esc-Liste (Abb. 5b, p-value = 7.43E-8). Die Anwendung desselben Tests für die primären Fibroblasten (Tabelle 1) ergab eine geringere Signifikanz (p-Wert = 4,07E-2).

Abbildung 5c zeigt die Überlappungsgene zwischen den in unserer Studie identifizierten Escapees und dem Balaton-Esc-Katalog (168 Gene einschließlich PAR-Gene) . Wir haben auch eine ergänzende Ressource einbezogen, die auf 940 Transkriptomen aus scRNA-Seq basiert (25 Ausreißergene, Tukiainen-Esc). Das Venn-Diagramm zeigt, dass jede der oben genannten Studien zum aktuellen Wissensstand über Ausreißer beiträgt. Die Escapees aus den beiden externen Quellen überschneiden sich bei 18 der 25 gemeldeten Gene (72 %). Wie aus Abb. 5c hervorgeht, überschneiden sich 62 % der von den Lymphoblasten gemeldeten Escapees mit den externen Escapee-Listen, während bei den Fibroblasten nur 38 % übereinstimmen. Bemerkenswert ist, dass die meisten der von uns entdeckten Escape-Kandidaten-Gene aus Fibroblasten (62 %) keine Übereinstimmung mit den anderen getesteten Listen aufweisen (Zusatzdatei 6: Tabelle S5).

LncRNAs erweitern die Liste der Escape-Kandidaten

Wir haben unsere Analyse auf lange nicht-kodierende RNAs (lncRNAs) ausgeweitet und dabei dieselben Escape-Kriterien wie bei kodierenden Genen verwendet (Abb. 6). Insgesamt identifizierten wir 15 lncRNAs als Escapee-Kandidaten, von denen nur einige wenige zuvor untersucht worden waren. Die Lage der lncRNAs und kodierenden Escape-Gene entlang von ChrX ist dargestellt (Abb. 6a). Wir untersuchten die Positionen der Escape-Gene entlang von ChrX im Verhältnis zu allen ChrX-Genen. Während die Positionsverteilung für lncRNA-Escape-Gene ähnlich ist (Kolmogorov-Smirnov-Test, p-Wert = 0,57), ist sie für kodierende Escape-Gene anders (Kolmogorov-Smirnov-Test, p-Wert = 0,004, Abb. 6a).

Abbildung 6b listet alle 15 identifizierten lncRNA-Escape-Gene auf, darunter auch ncRNA-Gene aus dem XIC, die die Aktivierung und Aufrechterhaltung der X-Inaktivierung koordinieren. Viele der lncRNAs sind an transkriptionell aktiven Abschnitten lokalisiert (z. B. innerhalb des PAR oder des XIC), während andere in nicht konservierten Regionen lokalisiert sind, die mit langen und kurzen ncRNAs angereichert sind. Weitere lncRNAs, einschließlich inaktivierter Gene, finden Sie in Zusatzdatei 7: Tabelle S6.

Evidenzbasierte Aufteilung der Escape-Gene

Abbildung 6c fasst die Aufteilung gemäß der Evidenz für alle Gene zusammen, die mit einem beliebigen Vertrauensgrad als Escape-Gene gemeldet werden (Zusatzdatei 6: Tabelle S5). Diese Liste enthält 75 Kandidaten, die in dieser Studie berichtet werden, einschließlich der Evidenz aus Pool100, einer Sammlung neuartiger lncRNAs. Abbildung 6d zeigt eine detaillierte Liste der Ergebnisse aus diesen Daten im Hinblick auf mehrere externe Ressourcen. Die Anzahl der Zellen, die Beweise liefern, ist ebenfalls für jedes Gen angegeben.

Unter Berücksichtigung dieser externen Ressourcen haben wir jedes Gen entsprechend der Qualität der unabhängigen Unterstützung, die mit ihm verbunden ist, zugeordnet (Abb. 6c und d). Konkret haben wir die Liste der 75 Gene in vier Gruppen unterteilt: (i) Gene werden als „bestätigt“ bezeichnet, wenn sie von beiden zuvor besprochenen externen Quellen als Ausreißer gemeldet werden. Es gibt 31 solcher Gene, für die diese Studie eine weitere Bestätigung für ihre Identität als Ausreißer liefert. (ii) Weitere 7 Gene sind als „bestätigt“ gekennzeichnet. Diese Gene werden nur von einer der beiden externen Quellen als Escape-Gene eingestuft. Bei diesen Genen bestätigen die unabhängigen Belege aus dieser Studie ihre Identität. (iii) Weitere 12 Gene sind als „wahrscheinliche“ Ausreißer gekennzeichnet. Diese Gene werden entsprechend der Übereinstimmung mit einem zusätzlichen externen Bericht über 114 Ausreißer zugeordnet, der nicht in den literaturbasierten Katalog aufgenommen wurde und somit als unabhängige Quelle betrachtet werden kann. (iv) Weitere 25 Gene sind als „mögliche“ Ausreißer gekennzeichnet. Für diese Gene gibt es in der Literatur keine Belege für ihre Identität, so dass ihre Einstufung als Ausreißer weniger gesichert ist. Unter ihnen werden 5 Gene nur von der Ausreißerzelle aus dem Lymphoblasten unterstützt und sind daher wahrscheinlich falsch. In diesem Satz gibt es weitere 10 Gene, die von keiner der drei besprochenen externen Ressourcen gemeldet wurden. Die Mehrheit der übersehenen lncRNAs gehört zu dieser Gruppe. Zwei dieser übersehenen escapee lncRNAs (TCONS_00017125 und TCONS_00017281, Abb. 6b) befinden sich in der PAR-Region, die bei der biallelischen Transkription besonders aktiv ist. Die Quelldaten für Abb. 6d sind in Zusatzdatei 6: Tabelle S5 zu finden.

Wzrost