- A framework for measuring the escape from X-inactivation in single cells
- A biallelikus expresszió számszerűsítése egysejtű primer fibroblasztokból
- Identifying escapees in single cell primary fibroblasts
- A klonális fázisú limfoblasztokból származó allélkifejeződések számszerűsítése
- Identifying escapees from single cell lymphoblasts
- Az azonosított szökevények összehasonlítása a jelenlegi ismeretekkel
- LncRNS-ek bővítik az escapee-jelöltek listáját
- Evidence-based partition of escapee genes
A framework for measuring the escape from X-inactivation in single cells
A escapees gének azonosítása szomatikus egysejtes gének expressziójának elemzésével történik scRNA-Seq módszertannal (lásd Módszerek). A módszer érzékenységének értékeléséhez összehasonlítjuk az X-kromoszóma (ChrX) expresszióját más autoszomális kromoszómákkal. Konkrétan a génben gazdag 17-es kromoszómára (Chr17), mint az autoszomális kromoszóma prototípusára összpontosítottunk. A Chr17-et azért választottuk, mert olyan kromoszómát képvisel, amely minimális számú szülő-specifikusan imprintelt génnel rendelkezik . A ChrX és Chr17 kvantitatív tulajdonságait az 1a. ábra tartalmazza.
A tanulmány két női eredetű forrás elemzésén alapul: (i) primer UCF1014 fibroblasztok (104 sejtet tartalmaz, lásd a Módszerek című részt). Ezt a halmazt nagyobb lefedettségű transzkriptomikai adatokkal specifikálták, de hiányzik belőle a haplotípus-fázissal kapcsolatos információ (1b. ábra); (ii) a GM12878 sejtvonalból származó klonális limfoblasztok kisebb adathalmaza (n = 25), teljes mértékben fázissal és szekvenált szülői diploid genommal (1c. ábra). Mindkét adathalmazban a heterozigóta SNP-k (hSNP-k) transzkripciója az információ forrása a monoallelikus vagy biallelikus expresszió meghatározásához. Minden hSNP-t, minden sejtben, amelyet egy előre meghatározott küszöbérték feletti expressziós bizonyíték támaszt alá, informatív SNP-nek (iSNP) tekintünk (lásd Módszerek, Additional file 1: Text). Az iSNP-k összege génenként meghatározza annak egyedi címkéjét, mint inaktivált vagy menekülő gén (lásd Módszerek, 1b-c ábra, Additional file 1: Text).
A biallelikus expresszió számszerűsítése egysejtű primer fibroblasztokból
Elemeztük a közzétett scRNA-Seq adatokat női primer humán fibroblasztokból . Az elemzés előtt gondoskodtunk egy kísérleti buktatóról, amely számos egysejtes vizsgálat szempontjából releváns. A buktató olyan sejtpárosításokra vonatkozik, amelyekben egy könyvtáron belül egynél több sejtet szekvenálnak. Ilyen forgatókönyv esetén a mintában szereplő két különböző sejtből származó különböző aktív X-kromoszómák (Xa) a teljes X-kromoszóma mentén biallelikus jelet eredményeznek. Bár a dubletták aránya várhatóan kicsi lesz, ez téves értelmezéshez vezethet . Ezért a fibroblasztokból származó adatok elemzése előtt újra megvizsgáltuk mind a 104 fibroblasztot, és megvizsgáltuk a biallelikus arányukat a ChrX tekintetében (lásd Módszerek). Három sejt kivételesen magas fokú biallelikus expressziót mutatott, ami két szülői X-kromoszóma keveredésére utalhat (Additional file 1: Text és S3 ábra). Mindhárom gyanús sejtet eltávolítottuk az összes elemzésből.
Ezután minden egyes sejt esetében megszámoltuk azon leolvasások számát, amelyek egyedileg hSNP allélokhoz voltak leképezve. Az egyes iSNP-k allélarányát (AR) az alternatív allélhoz (Alt) leképezett leolvasásoknak az összes leolvasáshoz viszonyított hányadaként határoztuk meg (lásd Módszerek, Additional file 2: S1 táblázat). A 2a-c. ábra összefoglalja a ChrX, Chr17 és a teljes autoszómális kromoszómák AR-ját a primer fibroblasztgyűjtemény (101 a 104 sejtből) szerint. Ezenkívül a 2d. ábra a bőrszövetekből származó imprintált gének egy annotált készletének AR-eloszlását mutatja (a ) szerint. Amint arról korábban már beszámoltunk, a referencia genom (AR = 0) felé történő térképezés torzítása nyilvánvaló (2a-d ábra). Ezenkívül a monoallelikus expresszió jelentős hányadát figyeltük meg minden vizsgált génkészlet esetében (2a-d ábra). A monoallelikus expressziónak ezt a domináns megjelenését az egyes sejtekben egyrészt a transzkriptumok alulmintavételezésének, másrészt az úgynevezett “transzkripciós kitörés” jelenségének kombinációja okozza .
Kizárólag azokra az iSNP-kre összpontosítottunk, amelyek nem monoallelikus szignatúrát mutatnak (azaz az AR = 0 és AR = 1 kizárásával). Jelentős különbséget figyeltünk meg a ChrX és az imprintált gének AR-eloszlásában a Chr17 és az összes autoszomális kromoszómához képest (vö. 2a-b és 2c-d ábra). Ennek megfelelően a 2. ábrán látható eredményekből több megállapítás is levonható: (i) A Chr17 és az összes autoszóma hasonló AR-profilon osztozik. (ii) Egyértelmű tendencia mutatkozik a kiegyensúlyozott expresszió (AR = 0,5) irányába minden autoszómális kromoszóma esetében (2a-b ábra), de a ChrX vagy az imprintált gének esetében nem (2c-d ábra). (iii) A nem monoallelikus expresszió aránya az autoszomális kromoszómákon magasabb (~ 18%) a ChrX-hez (~ 9%) képest. (iv) Az imprintált génekben a nem-monoallelikus expresszió hányada köztes szintet mutat (13%). Ez a köztes szint valószínűleg az imprintelt gének identitásában rejlő következetlenséget tükrözi . Kiegészítő fájl 3: Az S2. táblázat felsorolja a támogató iSNP-ket az összes elemzett kromoszómára vonatkozóan a fibroblasztokban, beleértve az imprintelt génkészletet is.
Identifying escapees in single cell primary fibroblasts
A primer fibroblasztok adathalmazában 232 és 485 gén van, amelyeket a ChrX és a Chr17 esetében iSNP bizonyíték támaszt alá. Mivel ezekből a sejtekből hiányzik a genom fázisára vonatkozó információ (1b. ábra), az X-kromoszómáról való menekülésre vonatkozó információ a biallelikus iSNP-k halmazára korlátozódik (lásd 1b. ábra). Az iSNP-ket a hozzájuk tartozó gének szerint aggregáltuk (1b. ábra). Az aggregációt különböző egyedi sejtekre és egy adott sejt-gén pároson belül több iSNP-re vonatkozóan végeztük el. Egy gént akkor jelölünk menekülő jelöltnek, ha több biallelikus iSNP-hez társul. Összesen 24 ilyen gént azonosítottunk (1. táblázat), amelyek a ChrX-ben kifejezett összes gén 10,3%-át teszik ki. A várakozásoknak megfelelően a Chr17-en a biallelikus expressziót mutató gének aránya lényegesen magasabb (49,3%, Additional file 4: S3 táblázat).
Az 1. táblázat a különböző támogatottságú szökevényjelölteket sorolja fel. Például a ZFX (Zinc finger X-chromosomal protein) és az SMC1A (Structural maintenance of chromosomes protein 1A) gének 103, illetve 19 biallelikus iSNP-vel erősen támogatottak. A menekülők azonosításának megbízhatóságát tovább növeli, ha legalább 2 független sejt hozzájárult a biallelikus expresszióra vonatkozó információval. Megmutattuk, hogy 24 génből 21 megfelelt ennek a szigorú kritériumnak (1. táblázat). Figyelemre méltó, hogy az azonosított escapeek között csak három PAR gént detektáltunk (SLC25A6, CD99 és DHRSX, 1. táblázat). Ezeknek a géneknek a menekülő génekként való besorolása megegyezik a várt PAR-expresszióval. Az expresszált PAR gének közül a biallelikus PAR gének száma alapján az escape gének hamis negatív felfedezési arányát 70%-ra becsültük (azaz 10 expresszált PAR génből 7-et kihagytunk). A 4. kiegészítő fájl: S3. táblázat az 1. táblázat alátámasztását mutatja.
A klonális fázisú limfoblasztokból származó allélkifejeződések számszerűsítése
A fent leírt protokoll egyik fő korlátja a szülői haplotípus-fázis hiánya. Ebben a beállításban az iSNP-k nem rendelhetők Xa vagy Xi csoportba. Következésképpen az Xi véletlenszerű kiválasztása, amely az elsődleges sejteket jellemzi, korlátozza a menekülők felfedezési arányát. Az scRNA-Seq elemzését kiterjesztettük a GM12878 klonális sejtvonalból származó női eredetű limfoblasztokra. Lásd az 1c. ábrát és az 1. kiegészítő fájlt: S4 ábra.
A 3a. ábra a klonális lymphoblastok egysejtjeinek (n = 25) expressziós profilját mutatja (Additional file 2: S1 táblázat, Additional file 5: S4 táblázat). Minden egyes sejtben a monoallelikus expresszió a transzkriptumok alulmintavételezésének és a transzkripciós kitörés jelenségének kombinációját tükrözi . Egyértelmű, hogy a Xa anyai expressziója dominál (3a. ábra, fent). Ez a megfigyelés megegyezik a GM12878 sejtvonal anyai Xa eredetéről szóló jelentéssel . Az elemzett sejtek többségében a mért teljes expresszió kis, de jelentős hányada az apai, Xi kromoszómáról származik (3a. ábra, fent). Ezzel szemben a Chr17 és az autoszomális kromoszómák mindkét allélból azonos mértékű expressziót mutatnak (3a. ábra, középső és alsó panelek).
Az ábrából látható, hogy a transzkripciós kitörés jelensége minden kromoszómát érint, beleértve a ChrX-et is. Annak felmérésére, hogy ez a jelenség milyen hatással van a menekülő gének azonosítására, összehasonlítottuk az egyes sejteket egy sejtekből álló pool (Pool100, 3a. ábra, jobb oldali sáv) tekintetében. Míg a Chr17-ből származó iSNP-k többsége biallelikus profilt mutat, a ChrX-en továbbra is az anyai monoallelikus expresszió dominál.
A 3b. ábra a ChrX, Chr17 és az autoszomális kromoszómák összesített nézete. Az adatok 375, 808 és 20 212 kifejezett hSNP-n alapulnak. A 3b. ábra (középső és jobb oldali panelek) a Chr17 és az autoszómális kromoszómák szülői alléljainak egyenlő arányú felosztását mutatja (3b. ábra, fent). Ugyanezt az elemzést elvégezve a Pool100-ból gyűjtött adatokon (3c. ábra) látható, hogy a szülői allélek felosztása gyakorlatilag változatlan marad (hasonlítsuk össze a rózsaszín és kék színek által elfoglalt frakciót, 3b-c. ábra). Emellett megfigyeltünk egy eltolódást a monoallelikus (3b-c. ábra, kitöltött szín) és a biallelikus kifejeződés között (3b-c. ábra, csíkozott szín). A biallelikus expresszió aránya a Ch17 esetében az egysejtűek 19%-áról 80%-ra nőtt a Pool100-ban, az autoszomális kromoszómák esetében pedig 18-ról 79%-ra (3c. ábra, középső és jobb oldali panel). A Pool100-ból származó eredmények azt mutatják, hogy az egyes sejtekben megfigyelt monoallelikus expresszió gyakorlatilag megszűnik a jel átlagolásával.
A ChrX-ről (3b. ábra (balra)) kapott eredmények alapvetően különböznek a Chr17-hez vagy az autoszomális kromoszómákhoz képest (3b-c. ábra). A legszembetűnőbb különbség az, hogy a ChrX-ben a kifejezett iSNP-knek csak 21%-a társul az apai Xi allélhez (3b. ábra, fent). Továbbá a Pool100 elemzése során a biallelikus expresszió frakciója továbbra is korlátozott (az egyes sejtek 9%-áról 34%-ra változik a Pool100-ban). A Pool100-ból származó ChrX megfigyelt mintázata (3c. ábra, balra) leginkább a sztochasztikus monoallelikus jel átlagolásával magyarázható (a többi kromoszómával azonos mértékben), miközben a Xa monoallelikus expresszió erős jele megmarad. Lásd Additional file 5: Table S4 az összes vizsgált kromoszóma és a Pool100 limfoblasztok allélarányát.
Identifying escapees from single cell lymphoblasts
A 4a. ábra egy géncentrikus nézet, amely a limfoblasztokból származó iSNP allélpartícióját mutatja (a származásuk szerint színezve, mint anyai, apai vagy vegyes expresszió, lásd Módszerek). Csak a több iSNP-vel támogatott gének azon részhalmaza van felsorolva a kromoszómák mentén való elrendezésük szerint. Összesen 93 annotált génről számolunk be a ChrX-en (4a. ábra, 30 menekülő és 63 inaktivált gén). Megjegyzendő, hogy az X-inaktivált gének olyan géneket jelentenek, amelyeket elsősorban az anyai Xa fejez ki. A ChrX p-karjának csúcsán található apai expressziójú gének klasztere a PAR génekből várható biallelikus expressziót képviseli (4a. ábra). Az apai expresszió további bizonyítékai a XIC-re lokalizálódnak olyan génekkel, mint a XIST, JPX és FTX. Míg a legtöbb menekülő gént korlátozott számú iSNP támogatja, néhányat közülük, mint például a ZFX, a CD99 és az SLC25A6, viszonylag sok támogató iSNP támogat (48, 38, illetve 34).
Az X-inaktiváció jelenségének mértékének értékelésére szolgáló alternatív módszer a bizonyítékok számszerűsítése közvetlenül az összes szekvenált olvasás összegéből (röviden olvasásalapú protokoll). A 4b-c ábra a Chr17 (4b. ábra) és a ChrX (4c. ábra) olvasatszámát hasonlítja össze az apai versus anyai eredet szerint. Összehasonlítjuk az egyes sejtek és a Pool100 expressziós adatait. A Chr17-ből származó génexpresszió lineáris regressziója magas korrelációs fit-line-t mutat (r2 = 0,823, 4b. ábra). A várakozásoknak megfelelően a Pool100-ból származó adatoknál a korreláció erősebb (r2 = 0,946, 4b. ábra). Arra a következtetésre jutottunk, hogy a transzkripciós bursting jelenség miatti monoallelikus expresszió ellenére az összes gén kiegyensúlyozott allélikus expressziója erősen támogatott. A ChrX esetében azonban az egyes sejtekből kapott lineáris regresszió gyenge (r2 = 0,238, 4c. ábra), és a Pool100-ból származó adatok sem javítottak rajta (r2 = 0,222, 4d. ábra). A ChrX expressziós adatait vizsgálva látható, hogy a regressziós egyenesek valójában az anyai Xa expresszió felé hajlanak (x-tengely). Az expressziós adatok a ChrX esetében két különböző regressziós vonalnak felelnek meg. Az egyik az inaktivált géneknek felel meg (az x-tengellyel párhuzamosan), a másik pedig egy megbízhatóan biallelikus expressziónak.
A konzervatív iSNP-alapú protokollt alkalmazva 30 olyan gént azonosítunk menekülő jelöltként, amelyeket az olvasásalapú protokoll is támogat (2. táblázat). A read-alapú (azaz, egy gént az apai leolvasások minimális száma alapján jelölünk menekülőként, lásd Módszerek) protokollja összesen 49 génre bővítette a menekülő jelöltek listáját (Additional file 4: S3. táblázat).
A gén mentén egyazon sejtben lévő allélok szülői eredetének vizsgálata az iSNP-k megbízhatóságának szigorú tesztje. Ez a teszt csak több hSNP-vel rendelkező génekre érvényes. Az ilyen, két vagy több kifejező hSNP-vel alátámasztott gének a gének 44%-át teszik ki. Egy gént akkor tekintünk konzisztensnek, ha a gén mentén történő expresszió egy adott sejtben nem monoallelikus mindkét allél esetében. Összesen 3 inkonzisztens gént azonosítottunk: TEX11, FTX és ZCCHC16. További 6 gén esetében az inkonzisztencia csak részleges, mivel más megfigyelések is vannak a biallelikus expresszióra. A teljes inkonzisztenciából származó becslés (3 a 29 génből, amelyek alkalmasak voltak erre a tesztre) azt sugallja, hogy a hibás értelmezés felső határa 10%. Ezenkívül az iSNP-alapú protokoll a 11 expressziós PAR-génből 9-et azonosított. Így az elkerült felismerési arányt 82%-ra extrapoláljuk. Érdekes módon a Chr17 elemzése, feltételezve, hogy nincs szisztematikus allelikus torzítás , azt mutatta, hogy a gének 7,3 és 9,6%-a az anyai, illetve az apai monoallelikus expresszióhoz társult. Ezek az eredmények 17,9%-os felső határt adnak a Chr17-ben a hamis génjelölés valószínűségének, és felhasználhatók a módszer korlátjának becslésére.
A legalább két sejtből származó apai bizonyíték megkövetelése 49-ről 18-ra csökkenti a menekülők számát (beleértve 5 PAR gént). Sok egyetlen evidenciával rendelkező gén egy bizonyos kiugró sejtből (SRR764803) származik, amely a 49 bejelentett génből 17-hez járult hozzá (2. táblázat, Additional file 5: Table S4). Ez a sejt mutatja a legmagasabb expressziós szintet mind a ChrX-en, mind a Chr17-en (Additional file 1: Text and Figure S4). A 2. táblázat felsorolja a felfedezett szökevényjelölteket az őket alátámasztó bizonyítékokkal együtt (2. táblázat).
Az azonosított szökevények összehasonlítása a jelenlegi ismeretekkel
Vizsgáltuk a vizsgálatunkban azonosított szökevények és egy irodalmi alapú katalógus közötti megfelelést . Ezt az egységes katalógust négy független tanulmány integrálásából állítottuk össze, amely 1144 génre terjed ki a ChrX-ből. Az ebben a katalógusban szereplő géneket kézzel kilenc meghatározott kategóriába soroltuk (lásd a Módszerek című részt). A legnagyobb az információhiányos géneket tartalmazza (45%) . A gének mintegy 15%-át (168/1144) tekintik “menekülő-asszociáltnak” (lásd Módszerek). Az “escapee-associated” gének összeállított készletét tekintjük arany standardnak a vizsgálatunkban az escapee felfedezési arányának teszteléséhez (összesen 124 gén, kivéve a PAR géneket, együttesen Balaton-Esc).
Hipergeometriai statisztikai tesztet alkalmaztunk (lásd Módszerek) a különböző escapee génlisták átfedésének értékelésére (5. ábra). Az 5a. ábra a fibroblasztok és a limfoblasztok (a PAR-gének kizárásával) azonosított menekülő gének számát mutatja. Megjegyezzük, hogy csak a Balaton-Esc benchmarkban szereplő gének szerepelnek ebben az elemzésben (5. ábra). Az 5b. ábra az 5a. ábrán szereplő génlisták és a Balaton-Esc közötti átfedés statisztikai szignifikanciáját mutatja. Amint látható, szignifikáns átfedés van a lymphoblastokból (2. táblázat és Additional file 4: S3 táblázat) és a Balaton-Esc lista között (5b. ábra, p-érték = 7,43E-8). Ugyanezt a tesztet alkalmazva a primer fibroblasztokra (1. táblázat) alacsonyabb szignifikanciát eredményezett (p-érték = 4,07E-2).
Az 5c. ábra a vizsgálatunkban azonosított escape gének és a Balaton-Esc katalógus (168 gén, beleértve a PAR géneket is) közötti átfedéseket ábrázolja . Egy kiegészítő forrást is felvettünk, amely 940 scRNS-Seq-ből származó transzkriptómán alapul (25 menekülő gén, Tukiainen-Esc) . A Venn-diagram azt mutatja, hogy a fenti tanulmányok mindegyike hozzájárul a menekülőkre vonatkozó jelenlegi ismeretekhez. A két külső forrásból származó menekülő gének a 25 bejelentett génből 18-ban (72%) átfedik egymást. Amint az 5c. ábrán látható, a lymphoblastokból jelentett escapeek 62%-a átfedésben van a külső escapee-listákkal, míg a fibroblasztok esetében csak 38%-os átfedés támasztja alá. Figyelemre méltó, hogy a fibroblasztokból felfedezett escapee-jelölt génjeink többségének (62%) nincs megfelelése a többi vizsgált listával (Additional file 6: Table S5).
LncRNS-ek bővítik az escapee-jelöltek listáját
Elemzésünket kiterjesztettük a hosszú nem kódoló RNS-ekre (lncRNS-ek), ugyanazokat az escapee-kritériumokat alkalmazva, mint amelyeket a kódoló génekből használtunk (6. ábra). Összesen 15 lncRNS-t azonosítottunk menekülő jelöltként, közülük csak néhányat vizsgáltunk korábban. Az lncRNS-ek és a kódoló menekülők elhelyezkedése a ChrX mentén látható (6a. ábra). A ChrX mentén az összes ChrX génhez viszonyítva vizsgáltuk a menekülők pozícióját. Míg az lncRNS-szökések pozícióeloszlása hasonló (Kolmogorov-Smirnov-teszt, p-érték = 0,57), addig a kódoló szökések esetében eltérő (Kolmogorov-Smirnov-teszt, p-érték = 0,004, 6a. ábra).
A 6b. ábra mind a 15 azonosított lncRNS menekülő gént felsorolja, köztük olyan ncRNS-géneket az XIC-ből, amelyek az X-inaktiváció aktiválását és fenntartását koordinálják. Az lncRNS-ek közül sokan transzkripcionálisan aktív szegmensekben lokalizálódnak (pl. a PAR-on vagy a XIC-en belül), míg mások nem konzervált régiókban lokalizálódnak, amelyek hosszú és rövid ncRNS-ekkel gazdagodnak. További lncRNS-eket, beleértve az inaktivált géneket is, lásd a 7. kiegészítő fájl: S6. táblázat.
Evidence-based partition of escapee genes
A 6c. ábra összefoglalja a bizonyítékok szerinti felosztást minden olyan génre, amelyet bármilyen szintű megbízhatósággal jelentettek escape-ként (Additional file 6: S5. táblázat). Ez a lista 75 jelöltet tartalmaz, amelyekről ebben a tanulmányban számoltak be, beleértve a Pool100-ból, az új lncRNS-ek gyűjteményéből származó bizonyítékokat is. A 6d. ábra részletesen felsorolja az ezen adatokból származó megállapításokat a serval külső források tekintetében. A bizonyítékot szolgáltató sejtek száma is fel van tüntetve minden gén esetében.
Ezeket a külső forrásokat figyelembe véve minden egyes gént a hozzá kapcsolódó független támogatás minősége szerint párosítottunk (6c. és d. ábra). Konkrétan a 75 gén listáját négy csoportra osztottuk: (i) A géneket akkor jelöltük “megerősítettnek”, ha mindkét korábban tárgyalt külső forrás menekültként jelentette őket . 31 ilyen gén van, amelyek esetében ez a tanulmány további megerősítést nyújt a menekülő génként való azonosságukról. (ii) További 7 gént jelölünk “jóváhagyottnak”. Ezeket a géneket a két külső forrás közül csak az egyik jelöli szökevényként . E gének esetében az e tanulmányból származó független bizonyítékok jóváhagyják azonosságukat. (iii) További 12 gén “valószínűsíthető” menekülő génként van jelölve. Ezeket a géneket egy további külső jelentéssel való egyetértés alapján jelöltük ki, amely 114 menekülő génről számol be , és amely nem szerepelt az irodalomalapú katalógusban , és így független forrásnak tekinthető. (iv) További 25 gén “lehetséges” menekülőként van jelölve. Ezeknél a géneknél nincs olyan irodalmi bizonyíték, amely alátámasztaná az azonosságukat, így a szökevényként való besorolásuk kevésbé támogatott. Közülük 5 gén csak a lymphoblastból származó kiugró sejtből van alátámasztva, és így valószínűleg hamis. Ebben a halmazban további 10 olyan gén van, amelyet a három tárgyalt külső forrás egyike sem jelentett , A figyelmen kívül hagyott lncRNS-ek többsége ebbe a csoportba tartozik. E figyelmen kívül hagyott menekülő lncRNS-ek közül kettő (TCONS_00017125 és TCONS_00017281, 6b. ábra) a PAR régióban található, amely kivételesen aktív a biallelikus transzkripcióban. A 6d. ábra forrásadatai a 6. kiegészítő fájlban találhatók: S5. táblázat.