A framework for measuring the escape from X-inactivation in single cells

Tunnistamme geenien pakenijat analysoimalla geenien ilmentymistä yksittäisten solujen somaattisista soluistakin scRNA-sek-menetelmää käyttäen (ks. Methods). Arvioidaksemme menetelmän herkkyyttä vertaamme X-kromosomin (ChrX) ekspressiota muihin autosomaalisiin kromosomeihin. Erityisesti keskityimme geenirikkaaseen kromosomiin 17 (Chr17) autosomaalisen kromosomin prototyyppinä. Chr17 valittiin, koska se edustaa kromosomia, jossa on minimaalinen määrä vanhemmille spesifisesti painuneita geenejä . ChrX:n ja Chr17:n kvantitatiiviset ominaisuudet on lueteltu kuvassa 1a.

Kuva 1

Työnkulku pakenevien geenien tunnistamiseksi yksittäisistä soluista. a ChrX:n ja Chr17:n kvantitatiiviset ominaisuudet on lueteltu GRCh37:n (GRC Human Build 37) mukaisesti. b Kaavio yksittäisten solujen primaaristen fibroblastien analysointiin. Ytimien kaksi väriä edustavat Xa:n satunnaisvalintaa. Fibroblastien yhteydessä kullakin Xa:lla on erilainen hSNP:iden ilmentymismalli. Kukin iSNP:stä voidaan määrittää referenssi- (R) tai vaihtoehtoiseen alleeliin (A). Jos yhdellä solulla, jossa on yksi Xa, ilmentymismalli on A R A, solu, jossa on vaihtoehtoinen Xa, ilmentää R A R. Koska X:n inaktivoituminen on satunnaista ja hSNP:t eivät ole vaiheistettuja, geenin merkitseminen pakenevaksi perustuu täysin siihen, että on olemassa useita todisteita iSNP:istä, joilla on biallelinen ilmentymä. Havainnollistavassa taulukossa esitetään iSNP:ien analyysi kustakin hSNP:stä (vasemmalla) kussakin solussa A:ksi tai R:ksi ja geenin annotointi iSNP-todisteiden kasautumisen mukaan. Kuvassa on merkitty neljästä yksittäisestä solusta (solu-1-solu-4) saadut hSNP:t. hSNP:t liittyvät kolmeen geeniin (merkitty geenistä a geeniin c). Geeni a on ainoa geeni, jolla on useita rinnakkaisia iSNP:tä, joten se on merkitty Escapee-geeniksi (Esc). Kahdella muulla geenillä ei joko ole biallelisia iSNP:itä (geeni b) tai niillä on vain yksi iSNP todisteena biallelisesta ilmentymisestä (geeni c), joten ne on merkitty inaktivoiduksi geeniksi (Ina). c Yksisoluisten kloonisten lymfoblastien järjestelmä. Toisin kuin primaarisissa fibroblasteissa (b), Xa:n vanhempien alkuperä on sama kaikissa soluissa. Tässä GM12878-solulinjan tapauksessa Xa liittyy äidilliseen (M) alleeliin (symboloitu vaaleanpunaisella värillä värjätyillä ytimillä). Lymfoblastien osalta isänpuoleisen alleelin (merkitty P:llä) esiintyminen riittää tunnistamaan Xi:stä ilmentyvän iSNP:n, ja näin ollen se voidaan mahdollisesti merkitä pakenevaksi. Oikeanpuoleisessa taulukossa korostetaan lymfoblastien escapee-luokitusta. Taulukon luokat ovat samat kuin kohdassa (b). Yksityiskohtaiset tiedot työnkulusta ja käytetyistä protokollista löytyvät lisätiedostosta 1: Teksti ja kuva S1

Tämä tutkimus perustuu kahden naisperäisen resurssin analysointiin: (i) primaariset UCF1014-fibroblastit (104 solua, ks. menetelmät). Tätä joukkoa täsmentää kattavampi transkriptomitieto, mutta siitä puuttuu tieto haplotyyppien vaiheistuksesta (kuva 1b); (ii) pienempi tietokokonaisuus GM12878-solulinjasta peräisin olevista kloonisista lymfoblasteista (n = 25), joilla on täysin vaiheistetut ja sekvensoidut vanhempien diploidiset genomit (kuva 1c). Molemmissa tietokokonaisuuksissa heterotsygoottisten SNP:iden (hSNP:iden) transkriptio on tietolähde monoallelisen tai biallelisen ilmentymisen määrittämiseksi. Jokaista hSNP:tä jokaisessa solussa, joka saa tukea ennalta määritetyn kynnysarvon ylittävästä ekspressiosta, pidetään informatiivisena SNP:nä (iSNP) (ks. menetelmät, lisätiedosto 1: teksti). iSNP:iden summa per geeni määrittelee sen yksilöllisen leiman inaktivoituneeksi tai pakenevaksi geeniksi (ks. Menetelmät, Kuva 1b-c, Lisätiedosto 1: Teksti).

Biallelisen ilmentymisen kvantitointi yksittäisten solujen primaarisista fibroblasteista

Analysoimme julkaistua scRNA-Seq-dataa naaraspuolisista primaarisista ihmisen fibroblasteista . Ennen analyysia huolehdimme kokeellisesta sudenkuopasta, joka liittyy moniin yksisolututkimuksiin. Tämä sudenkuoppa koskee solupareja, joissa sekvensoidaan useampi kuin yksi solu yhtä kirjastoa kohti. Tällaisessa skenaariossa eri aktiiviset X-kromosomit (Xa) kahdesta eri solusta, jotka sisältyvät näytteeseen, tuottavat biallelisen signaalin koko X-kromosomia pitkin. Vaikka dublettien osuuden odotetaan olevan pieni, se voi johtaa väärään tulkintaan. Siksi ennen fibroblasteista saatujen tietojen analysointia kävimme uudelleen läpi kaikki 104 fibroblastia ja testasimme niiden biallelia-suhteen ChrX:n suhteen (ks. Menetelmät). Kolmessa solussa havaittiin poikkeuksellisen korkea biallelisen ilmentymisen aste, mikä saattaa viitata kahden vanhemman X-kromosomin sekoitukseen (lisätiedosto 1: teksti ja kuva S3). Poistimme kaikki kolme epäilyttävää solua kaikista analyyseistä.

Seuraavaksi laskimme jokaisen yksittäisen solun osalta niiden lukujen lukumäärän, jotka oli kartoitettu yksikäsitteisesti hSNP-alleeleihin. Kunkin iSNP:n alleelisuhde (AR) määritellään vaihtoehtoiselle alleelille (Alt) kartoitettujen lukujen osuutena kaikista lukemista (ks. menetelmät, lisätiedosto 2: taulukko S1). Kuvissa 2a-c esitetään yhteenveto ChrX:n, Chr17:n ja koko autosomaalisten kromosomien AR:stä primaaristen fibroblastien kokoelman mukaan (101 solua 104:stä). Lisäksi kuvassa 2d esitetään ihokudoksista peräisin olevien imprintoituneiden geenien annotoidun joukon AR:n jakauma (mukaan ). Kuten aiemmin on raportoitu, kartoituksessa on selvästi havaittavissa harhaa kohti referenssigenomia (AR = 0) (kuvat 2a-d). Lisäksi kaikissa testatuissa joukoissa havaittiin huomattava osuus monoallelisesta ilmentymisestä (kuvat 2a-d). Tämä monoallelisen ilmentymisen hallitseva esiintyminen yksittäisissä soluissa johtuu sekä transkriptien alimman näytteenoton että ilmiön, joka tunnetaan nimellä ”transkription puhkeaminen”, yhdistelmästä .

Kuva 2

Kunkin SNP:n alleelisuhteen (AR) jakauma vaihtoehtoiselle (Alt) Alt- ja referenssi- (Ref-) alleelille annettujen osoitusten murto-osana. Ylempien histogrammien X-akseli vaihtelee välillä 0-1,0, jossa 0 tarkoittaa, että kaikki osoitukset liittyvät Ref-alleeliin, ja 1 tarkoittaa, että kaikki osoitukset liittyvät Alt-alleeliin. Koska suurin osa iSNP:istä on osoitettu AR-arvoilla 0 tai 1, kukin analyysi esitetään kahdella histogrammilla. Alempi histogrammi keskittyy ei-monoallelisiin iSNP:iin ja kattaa kaikki AR-arvot lukuun ottamatta AR = 0 ja AR = 1. Alempiin histogrammeihin sisältyvien iSNP:iden prosenttiosuus esitetään. AR-arvojen jakaumat esitetään Chr17:n (a), autosomaalisten kromosomien (b), ChrX:n (c) ja imprintoitujen geenien (d) osalta. Lähdetiedot, ks. lisätiedosto 3: Taulukko S2

Keskityimme vain iSNP:iin, jotka osoittavat ei-monoallelista allekirjoitusta (ts. pois lukien AR = 0 ja AR = 1). Havaitsimme merkittävän eron ChrX:n ja imprintoitujen geenien AR-jakaumassa suhteessa Chr17:ään ja kaikkiin autosomaalisiin kromosomeihin (vertaa kuvia 2a-b ja 2c-d). Näin ollen kuvassa 2 esitetyistä tuloksista voidaan tehdä useita havaintoja: (i) Chr17:llä ja kaikilla autosomeilla on samanlainen AR-profiili. (ii) Selvä taipumus tasapainoiseen ilmentymiseen (AR = 0,5) on havaittavissa kaikilla autosomaalisilla kromosomeilla (kuvat 2a-b), mutta ei ChrX:llä tai imprintoituneilla geeneillä (kuvat 2c-d). (iii) Ei-monoallelisen ilmentymisen osuus autosomaalisissa kromosomeissa on suurempi (~ 18 %) suhteessa ChrX-geeneihin (~ 9 %). (iv) Ei-monoallelisen ilmentymisen osuus imprintoituneissa geeneissä on keskitasoa (13 %). Tällainen välitaso heijastaa todennäköisesti imprintoitujen geenien identiteetin luontaista epäjohdonmukaisuutta . Lisätiedosto 3: Taulukossa S2 on lueteltu tukevat iSNP:t kaikille analysoiduille kromosomeille fibroblasteissa, mukaan lukien imprintoitujen geenien joukko.

Identifying escapees in single cell primary fibroblasts

Primääritettyjen geenien tunnistaminen yksittäisten solujen primaarisissa fibroblasteissa

Primääritettyjen fibroblastien tietokokonaisuuksissa ChrX:llä ja Chr17:llä on yhteensä 232 geeniä ja 485 geeniä, jotka tukevat iSNP:n näyttöä. Koska näiltä soluilta puuttuu tieto genomin vaiheistuksesta (kuva 1b), tieto X-kromosomista pakenemisesta rajoittuu biallelisten iSNP:ien joukkoon (ks. kuva 1b). Yhdistimme iSNP:t niitä vastaavien geenien mukaan (kuva 1b). Aggregointi suoritetaan eri yksittäisille soluille ja useille iSNP:ille tietyn solu-geeniparin sisällä. Geeni leimataan escapee-ehdokkaaksi, kun siihen liittyy useita biallelisia iSNP:tä. Kaikkiaan tunnistimme 24 tällaista geeniä (taulukko 1), jotka muodostavat 10,3 prosenttia kaikista ChrX:ssä ilmentyvistä geeneistä. Odotetusti Chr17:ssä biallelista ilmentymistä osoittavien geenien osuus on huomattavasti suurempi (49,3 %, Lisätiedosto 4: Taulukko S3).

Taulukko 1 Escapeesit 101:stä primaarisesta yksisoluisesta fibroblastista. Täydellinen luettelo kaikista geeneistä on saatavilla lisätiedostossa 3: Taulukko S4

Taulukossa 1 on lueteltu pakenemiskandidaatit eri tukitasoilla. Esimerkiksi ZFX (sinkkisormi X-kromosomiproteiini) ja SMC1A (kromosomien rakenteellisen ylläpidon proteiini 1A) -geenit ovat vahvasti tuettuja, ja niillä on 103 ja 19 biallelista iSNP:tä. Pakenevien geenien tunnistamisen luotettavuutta lisää entisestään se, että vähintään kaksi riippumatonta solua on antanut tietoa biallelisesta ilmentymisestä. Osoitamme, että 24 geenistä 21 täytti tämän tiukan kriteerin (taulukko 1). Huomionarvoista on, että tunnistetuista pakenevista geeneistä havaitsimme vain kolme PAR-geeniä (SLC25A6, CD99 ja DHRSX, taulukko 1). Näiden geenien määrittäminen pakeneviksi geeneiksi vastaa odotettua PAR-ekspressiota. Ekspressoitujen PAR-geenien biallelisten PAR-geenien lukumäärän perusteella arvioimme, että pakenevien geenien väärien negatiivisten löydösten osuus on jopa 70 % (eli 7 ekspressoitua PAR-geeniä 10:stä jäi havaitsematta). Additional file 4: Table S3 shows the support for Table 1.

Quantifying allelic expression from clonal phased lymphoblasts

Yllä kuvatun protokollan merkittävä rajoitus koskee vanhempien haplotyyppivaiheistuksen puuttumista. Tässä tilanteessa iSNP:tä ei voida määrittää Xa:han tai Xi:hen. Näin ollen Xi:n satunnainen valinta, joka luonnehtii primaarisoluja, rajoittaa pakenevien geenipiirteiden löytymisnopeutta. Laajensimme scRNA-Seq-analyysin koskemaan naisperäisiä lymfoblasteja kloonisesta solulinjasta GM12878 . Katso kuva 1c ja lisätiedosto 1: Kuva S4.

Kuvassa 3a esitetään klonaalisten lymfoblastien yksittäisten solujen (n = 25) ilmentymisprofiili (Lisätiedosto 2: Taulukko S1, Lisätiedosto 5: Taulukko S4). Missä tahansa yksittäisessä solussa monoallelinen ilmentyminen heijastaa transkriptien alimman näytteenoton ja transkription puhkeamisen ilmiön yhdistelmää . On selvää, että Xa:sta peräisin oleva maternaalinen ekspressio dominoi (kuva 3a, yläosa). Tämä havainto vastaa solulinjan GM12878 raportoitua äidillistä Xa-alkuperää. Useimmissa analysoiduissa soluissa pieni mutta huomattava osa mitatusta kokonaisekspressiosta on peräisin isänpuoleisesta, Xi-kromosomista (kuva 3a, ylhäällä). Sitä vastoin Chr17:ssä ja autosomaalisissa kromosomeissa on yhtä paljon ekspressiota molemmista alleeleista (Kuva 3a, keski- ja alapaneeli).

Kuva. 3

Kvantifioidaan iSNP:iden merkinnät 25 yksisoluisesta lymfoblastista. a Kukin yksisoluinen solu on jaettu sen merkitsemien alleelisten iSNP:iden mukaan ChrX:ssä, Chr17:ssä ja kaikissa autosomaalisissa kromosomeissa. iSNP:t liittyvät äidin (vaaleanpunainen), isän (vaaleansininen) ja tasapainoiseen ilmentymiseen (harmaa). Solut on järjestetty vasemmalta oikealle niiden iSNP-osuuksien mukaan (lisätiedosto 1: kuva S4). Oikealla on esitetty Pool100:n yhteenvetotilastot. b Yhteenveto iSNPs-tunnisteiden jakautumisesta kaikille 25 yksittäiselle solulle ChrX-, Chr17- ja autosomaalisilla kromosomeilla. c Yhteenveto iSNPs-tunnisteiden jakautumisesta Pool100:lle. Siniset ja vaaleanpunaiset värit liittyvät isän ja äidin alleeleihin. Raidallinen kuvio osoittaa, että bialleliset iSNP:t kallistuvat paternaalisiin (sininen) tai maternaalisiin (vaaleanpunainen) alleeleihin. Yksittäisten solujen osalta tiedot perustuvat 375 iSNP:hen ChrX:n osalta, 808 iSNP:hen Chr17:n osalta ja 20 212 iSNP:hen autosomaalisten kromosomien osalta. Pool100:n tiedot perustuvat 211 iSNP:hen ChrX:n osalta, 216:een Chr17:n osalta ja 5360 iSNP:hen autosomaalisten kromosomien osalta. Lähdetiedot löytyvät Additional file 5: Table S4

Kuvasta käy ilmi, että transkriptiopurkauksen ilmiö vaikuttaa kaikkiin kromosomeihin, myös ChrX:ään. Arvioidaksemme tämän ilmiön vaikutusta geenien tunnistamiseen pakeneviksi verrattiin yksittäisiä soluja suhteessa solupooliin (Pool100, kuva 3a, oikea palkki). Vaikka suurin osa Chr17:n iSNP:istä näyttää biallelisia profiileja, ChrX:ää hallitsee edelleen äidin monoallelinen ilmentyminen.

Kuvassa 3b on aggregoitu näkymä ChrX:stä, Chr17:stä ja autosomaalisista kromosomeista. Tiedot perustuvat 375, 808 ja 20 212 ekspressoituun hSNP:hen. Kuvassa 3b (keskimmäinen ja oikeanpuoleinen paneeli) näkyy vanhempien alleelien yhtäläinen jakautuminen Chr17- ja autosomaalisista kromosomeista (kuva 3b, yläosa). Saman analyysin suorittaminen Pool100:sta kerätyille tiedoille (kuva 3c) osoittaa, että vanhempien alleelien jakautuminen pysyy käytännöllisesti katsoen muuttumattomana (vertaa vaaleanpunaisen ja sinisen värin miehittämää osuutta, kuva 3b-c). Lisäksi havaittiin siirtyminen monoallelisesta (kuva 3b-c, täytetty väri) bialleliseen ilmentymiseen (kuva 3b-c, raidallinen väri). Ch17:n biallelisen ilmentymisen osuus kasvoi 19 prosentista yksittäisissä soluissa 80 prosenttiin Pool100:ssa ja autosomaalisten kromosomien osalta 18 prosentista 79 prosenttiin (Kuva 3-c, keskimmäinen ja oikea paneeli). Pool100:sta saadut tulokset osoittavat, että yksittäisissä soluissa havaittu monoallelinen ekspressio käytännössä häviää, kun signaali keskiarvoistetaan.

Tulokset ChrX:stä (Kuva 3b (vasen)) eroavat oleellisesti Chr17:stä tai autosomaalisista kromosomeista (Kuva 3b-c). Merkittävin ero on se, että vain 21 % ilmentyneistä iSNP:istä liittyy isän Xi-alleeliin ChrX:ssä (Kuva 3b, ylhäällä). Lisäksi Pool100:a analysoitaessa biallelisen ilmentymisen osuus pysyy rajallisena (siirtymä yksittäisten solujen 9 prosentista 34 prosenttiin Pool100:ssa). Pool100:sta havaittu ChrX:n kuvio (kuva 3c, vasemmalla) selittyy parhaiten stokastisen monoallelisen signaalin keskiarvoistamisella (samassa määrin kuin muissa kromosomeissa) säilyttäen samalla Xa-monoallelisen ilmentymän voimakkaan signaalin. Katso lisätiedosto 5: Taulukko S4 kaikkien testattujen kromosomien ja Pool100:n lymfoblastien alleelisuhteet.

Pakolaisten tunnistaminen yksisoluisista lymfoblasteista

Kuvassa 4a on geenikeskeinen näkymä, jossa näkyy iSNP:n alleelien jakautuminen lymfoblasteista (väritettynä sen mukaan, ovatko ne alkuperältään äidillisiä, isänpuoleisia vai sekoitettuja ilmentymiä, ks. Menetelmät). Ainoastaan niiden geenien osajoukko, joita useat iSNP:t tukevat, on lueteltu sen mukaan, miten ne on järjestetty kromosomeja pitkin. Kaikkiaan raportoimme 93 annotoidusta geenistä ChrX:ssä (kuva 4a, 30 pakenevaa ja 63 inaktivoitua geeniä). Huomaa, että X-inaktivoituneet geenit ovat geenejä, jotka ilmentyvät ensisijaisesti äidin Xa:sta. ChrX:n p-kaaren kärjessä oleva isällisen ilmentymisen omaavien geenien klusteri edustaa PAR-geeneistä odotettua biallelista ilmentymistä (kuva 4a). Lisänäyttöä isällisestä ekspressiosta on paikallistettu XIC:hen geeneillä, kuten XIST, JPX ja FTX. Vaikka suurinta osaa pakenevista geeneistä tukee rajallinen määrä iSNP:tä, muutamia niistä, kuten ZFX, CD99 ja SLC25A6, tukee suhteellisen suuri määrä tukevia iSNP:tä (48, 38 ja 34 vastaavasti).

Kuva 4

Lymfoblastisoluista saatujen alleelien geenikohtainen ositus. a Kunkin ChrX:ssä sijaitsevan geenin osalta on esitetty iSNP:ien vanhempien ositus sekä iSNP:ien lukumäärä. Selkeyden vuoksi vain geenit, joita tukee > = 2 iSNPS, on lueteltu. Yhteensä 93 geeniä ChrX:ssä on lueteltu niiden järjestyksen mukaan kromosomissa. Värikoodi on iSNP-merkintöjen mukaan isällinen, äidillinen ja tasapainoinen ilmentyminen. Lähdetiedot löytyvät lisätiedostosta 5: taulukko S4. b-c Isän ja äidin alleelien ekspressiotasojen välinen korrelaatio. Hajontakuvioissa esitetään geenien ilmentymistasot äidin (x-akseli) ja isän (y-akseli) alleeleihin liittyvien lukemien lukumäärän mukaan. Kunkin hajontakuvion analysoitujen geenien lukumäärä on ilmoitettu (x-akselilla suluissa). Esitetyt tiedot ovat Chr17:stä (b) ja ChrX:stä (c) yksittäisten solujen ja Pool100:n perusteella. Huomaa, että Pool100-datan lukemien määrä on 10-kertainen yksittäisistä soluista poimittuun kumulatiiviseen dataan verrattuna. Lähdetiedot löytyvät Additional file 4: Table S3

Vaihtoehtoinen menetelmä X-inaktivoitumisilmiön laajuuden arvioimiseksi on kvantifioida todistusaineisto suoraan kaikkien sekvensoitujen lukujen summasta (lyhennettynä lukupohjainen protokolla). Kuvissa 4b-c verrataan lukumääriä Chr17:stä (kuvat 4b) ja ChrX:stä (kuva 4c) isän ja äidin alkuperän mukaan. Vertailemme yksittäisten solujen ja Pool100:n ekspressiotietoja. Chr17:stä peräisin olevan geeniekspression lineaarinen regressio osoittaa korkean korrelaation sovituslinjan (r2 = 0,823, kuva 4b). Odotetusti korrelaatio on vahvempi Pool100:sta peräisin olevissa tiedoissa (r2 = 0,946, kuva 4b). Päättelimme, että huolimatta transkription purkautumisilmiöstä johtuvasta monoallelisesta ekspressiosta, kaikkien geenien tasapainoinen alleelinen ekspressio on vahvasti tuettu. ChrX:n osalta yksittäisten solujen tuloksena saatu lineaarinen regressio on kuitenkin heikko (r2 = 0,238, kuva 4c), eivätkä Pool100:sta saadut tiedot parantaneet sitä (r2 = 0,222, kuva 4d). ChrX:n ekspressiotietojen tarkastelu osoittaa, että regressiosuorat itse asiassa kallistuvat kohti äidin Xa:n ekspressiota (x-akseli). Ekspressiotiedot ovat sopusoinnussa kahden eri regressiosuoran kanssa ChrX:n osalta. Toinen vastaa inaktivoituja geenejä (yhdensuuntainen x-akselin kanssa) ja toinen vastaa luotettavasti biallelista ekspressiota.

Konservatiivisen iSNP-pohjaisen protokollan soveltaminen johtaa 30 geenin tunnistamiseen pakenemiskandidaateiksi, joita myös lukupohjainen protokolla tukee (taulukko 2). Lukupohjainen (ts, geenin merkitseminen pakenevaksi geeniksi, jos sillä on vähimmäismäärä isänpuoleisia lukemia, ks. menetelmät) protokolla laajensi pakenevien ehdokkaiden luetteloa siten, että se sisälsi kaikkiaan 49 geeniä (lisätiedosto 4: taulukko S3).

Taulukko 2 Pakenevat geenit 25:stä klonaalisesta yksisoluisesta lymfoblastista

Testata geenin varrella olevien alleelien vanhempien alkuperää samassa solussa on tiukka testi iSNP:iden luotettavuuden arvioimiseksi. Tämä testi on pätevä vain geeneille, joissa on useita hSNP:tä. Tällaisia geenejä, joita tuetaan kahdella tai useammalla ilmentävällä hSNP:llä, on 44 % geeneistä. Pidämme geeniä johdonmukaisena, jos geenin pitkin tapahtuva ilmentyminen tietyssä solussa ei ole monoallelista molemmille alleeleille. Kaikkiaan tunnistimme 3 epäjohdonmukaista geeniä – TEX11, FTX ja ZCCHC16. Muiden kuuden geenin kohdalla epäjohdonmukaisuus on vain osittaista, koska biallelisesta ilmentymisestä on muitakin havaintoja. Täydellisen epäjohdonmukaisuuden arvio (3 geeniä 29:stä tähän testiin soveltuvasta geenistä) viittaa siihen, että virheellisen tulkinnan yläraja on 10 %. Lisäksi iSNP-pohjainen protokolla tunnisti yhdeksän 11:stä ilmentyneestä PAR-geenistä. Näin ollen ekstrapoloimme karanneiden havaitsemisprosentiksi 82 %. Mielenkiintoista on, että Chr17:n analysointi olettaen, että systemaattista alleeliharhaa ei ole , osoitti, että 7,3 % ja 9,6 % geeneistä liittyi vastaavasti äidin ja isän monoalleliseen ilmentymiseen. Nämä tulokset antavat 17,9 %:n ylärajan väärien geenimerkintöjen todennäköisyydelle Chr17:ssä, ja niitä voidaan käyttää menetelmän rajoituksen arvioimiseen.

Vaatimus isänpuoleisesta todistusaineistosta vähintään kahdesta solusta vähentää pakenevien geenien määrän 49:stä 18:aan (mukaan lukien 5 PAR-geeniä). Monet yksittäiset todistusgeenit, jotka johtuvat tietystä outlier-solusta (SRR764803), joka vaikutti 17:ään 49:stä raportoidusta geenistä (taulukko 2, lisätiedosto 5: taulukko S4). Tällä solulla on korkeimmat ekspressiotasot sekä ChrX:ssä että Chr17:ssä (lisätiedosto 1: teksti ja kuva S4). Taulukossa 2 luetellaan löydetyt pakenemiskandidaatit sekä niitä tukevat todisteet (Taulukko 2).

Tunnistettujen pakenemisten vertailu nykytietämykseen

Testasimme tutkimuksessamme tunnistettujen pakenemisten ja kirjallisuuteen perustuvan luettelon vastaavuutta . Tämä yhtenäinen luettelo koottiin neljän riippumattoman tutkimuksen integroinnista, joka kattaa 1144 geeniä ChrX:stä. Tämän luettelon geenit on jaettu manuaalisesti yhdeksään määriteltyyn luokkaan (ks. Menetelmät). Suurin niistä koskee geenejä, joista puuttuu tietoa (45 %) . Noin 15 % geeneistä (168/1144) katsotaan ”escapee-assosioituneiksi” (ks. menetelmät). Pidämme koottua ’escapee-assosioituneiden’ geenien joukkoa kultaisena standardina testataksemme escapeen löytymisastetta tutkimuksessamme (yhteensä 124 geeniä, poislukien PAR-geenit, joita kutsutaan yhteisesti nimellä Balaton-Esc).

Sovelsimme hypergeometristä tilastollista testiä (ks. Menetelmät) arvioidaksemme eri escapee-geeniluetteloiden päällekkäisyyksiä (Kuva 5). Kuvassa 5a esitetään fibroblastien ja lymfoblastien tunnistettujen pakenevien geenien määrä (pois lukien PAR-geenit). Huomaa, että vain Balaton-Esc-vertailussa mukana olevat geenit sisältyvät tähän analyysiin (kuva 5). Kuvassa 5b esitetään kuvasta 5a saatujen geeniluetteloiden ja Balaton-Esc-vertailun geeniluetteloiden välisen päällekkäisyyden tilastollinen merkitsevyys. Kuten voidaan nähdä, lymfoblastien (taulukko 2 ja lisätiedosto 4: taulukko S3) ja Balaton-Esc-luettelon (kuva 5b, p-arvo = 7,43E-8) välillä on merkittävä päällekkäisyys. Saman testin soveltaminen primaarisiin fibroblasteihin (taulukko 1) johti vähäisempään merkitsevyyteen (p-arvo = 4.07E-2).

Kuva 5

Tunnistetut pakolaiset ja päällekkäisyyksien tilastollinen merkitsevyys kirjallisuuspohjaisen luettelon kanssa, jonka on koonnut Balaton ym. a Kussakin analyysissä tunnistettujen pakolaisten lukumäärät. Lukumäärät sisältävät vain ne geenit, jotka esiintyivät Balaton et al.:ssa, eivätkä ne sisällä PAR-geenejä. b Hypergeometriseen jakaumaan perustuva tilastollinen analyysi, jossa mitataan päällekkäisyyttä Balaton et al. esittämän kirjallisuuspohjaisen luettelon ja tässä tutkimuksessa määritettyjen pakenevien geenien välillä (kuten kohdassa (a)). Y-akseli on lasketun p-arvon -log10(x). c Venn-kaavio neljästä pakolaisjoukosta analysoitujen fibroblastien ja lymfoblastien, Balaton-Esc-kokoelman ja Tukiainen-Esc:n mukaan. Mukaan lukien PAR. Katso lisätietoja tekstistä. Lähdetiedot Additional file 6: Table S5

Kuvassa 5c on esitetty tutkimuksessamme tunnistettujen escape-geenien ja Balaton-Esc-katalogin (168 geeniä, mukaan lukien PAR-geenit) päällekkäiset geenit . Liitimme mukaan myös täydentävän resurssin, joka perustuu 940 scRNA-Seq:n transkriptomiin (25 pakenevaa geeniä, Tukiainen-Esc) . Venn-diagrammi osoittaa, että kukin edellä mainituista tutkimuksista lisää osaltaan nykyistä tietämystä pakolaisista. Kahden ulkoisen resurssin sisältämät pakenevat geenit ovat päällekkäisiä 18:ssa 25 raportoidusta geenistä (72 %). Kuten kuvasta 5c käy ilmi, 62 % lymfoblasteista raportoiduista pakenemisgeeneistä on päällekkäisiä ulkoisten pakenemisgeeniluetteloiden kanssa, kun taas fibroblastien tukena on vain 38 % päällekkäisyyttä. Huomattavaa on, että suurimmalla osalla fibroblasteista löytämistämme pakenemiskandidaattigeeneistä (62 %) ei ole vastaavuutta muiden testattujen luetteloiden kanssa (Lisätiedosto 6: Taulukko S5).

LncRNA:t laajentavat pakenemiskandidaattiluetteloa

Alaajensimme analyysimme koskemaan myös pitkiä ei-koodaavia RNA:ita (lncRNA:ita), ja käytimme tässä analyysissämme samoja pakenemisperusteiden kriteerejä, joita käytimme koodaavien geenien kohdalla (Kuva 6). Kaikkiaan tunnistimme 15 lncRNA:ta escapee-ehdokkaiksi, joista vain muutamia oli tutkittu aiemmin. LncRNA:iden ja koodaavien pakenevien geenien sijainti ChrX:ää pitkin on esitetty (kuva 6a). Testasimme pakenevien geenien sijaintia ChrX:n varrella suhteessa kaikkiin ChrX-geeneihin. Vaikka lncRNA-pakotteiden sijaintijakauma on samanlainen (Kolmogorov-Smirnovin testi, p-arvo = 0,57), se on erilainen koodaavien pakotteiden kohdalla (Kolmogorov-Smirnovin testi, p-arvo = 0,004, kuva 6a).

Kuva 6

LncRNA:t, jotka on määritetty pakeneviksi, ja pakenevien ryhmät niiden luottamustason mukaan. a Pakenevien hajonta ChrX:ää pitkin. LncRNA:ille ja koodaaville geeneille kuuluvat pakenijat on merkitty ChrX:n kaavioiden ylä- ja alapuolelle. b Taulukko, jossa luetellaan 15 lncRNA:n pakenijakandidaattia. Oranssilla värillä merkitty escapee ja harmaalla inaktivoitu. Yksittäiseen iSNP:hen perustuva määritys on merkitty vaaleanoranssilla. Valkoinen osoittaa raportin puuttumista tai ei-ekspressiota. XIC, X inaktivaatiokeskuksen alue. c Tässä tutkimuksessa escapee-ehdokkaiksi mainittujen 75 geenin jako. Luokat on merkitty ”vahvistettu”, ”hyväksytty”, ”todennäköinen” ja ”mahdollinen” (ks. teksti). Kaksi ulkoista resurssia, joita käytetään ryhmien määrittelyssä, ovat kirjallisuudesta ja yhden solun mukaan . ’Todennäköisen’ karanneen ryhmän osalta käytimme todisteena karanneen annotaatiota alkaen. Huomaa, että 15:stä luetellusta lncRNA-geenistä 11 sisältyy ’mahdollisten’ pakenevien ryhmään. d Yhteenveto 75 geenin näyttöön perustuvista ryhmistä. Geenit on lajiteltu neljän todistusaineistoryhmän mukaan (kuten kohdassa c) Pakenevat geenit on väritetty oranssilla. Vaalea oranssi osoittaa pakenevia geenejä, joita tukee yksi todiste vain yhdestä fibroblastien solusta. Inaktivoitumattomat geenit on merkitty harmaalla. Valkoinen väri osoittaa, ettei ilmentymistä tapahdu tai ettei raporttia ole. Solutodisteet on värikoodattu siten, että ne osoittavat tukea yhdestä (vaaleansininen) tai useammasta solusta (tummansininen). Tapaukset, joissa todisteet perustuvat vain Pool100:een, on myös merkitty vaaleansinisellä. PAR-geenit ja lncRNA:t on merkitty. Lähdetiedot ovat lisätiedostossa 6: Taulukko S5

Kuvassa 6b on lueteltu kaikki 15 tunnistettua lncRNA-karkurigeeniä, joiden joukossa on ncRNA-geenejä XIC:stä, jotka koordinoivat X-aktivaation aktivointia ja ylläpitoa. Monet lncRNA:t lokalisoituvat transkriptiivisesti aktiivisiin segmentteihin (esim. PAR:n tai XIC:n sisällä), kun taas toiset lokalisoituvat ei-konservoiduille alueille, jotka ovat rikastuneet pitkillä ja lyhyillä ncRNA:illa. Muista lncRNA:ista, mukaan lukien inaktivoidut geenit, ks. lisätiedosto 7: taulukko S6.

Karkulaisgeenien todistusaineistoon perustuva jako

Kuvassa 6c esitetään yhteenveto todistusaineiston mukaisesta jaosta kaikkien niiden geenien osalta, jotka on raportoitu millä tahansa luotettavuustasolla pakolaisgeeneiksi (lisätiedosto 6: taulukko S5). Tämä luettelo sisältää 75 ehdokasta, jotka on raportoitu tässä tutkimuksessa, mukaan lukien todisteet Pool100:sta, joka on kokoelma uusia lncRNA:ita. Kuvassa 6d on yksityiskohtainen luettelo tästä aineistosta saadusta havainnosta ottaen huomioon serval ulkoiset resurssit. Jokaisen geenin kohdalla ilmoitetaan myös todisteen antaneiden solujen lukumäärä.

Kun otimme nämä ulkoiset resurssit huomioon, sovitimme jokaisen geenin yhteen siihen liittyvän riippumattoman tuen laadun mukaan (kuvat 6c ja d). Erityisesti jaoimme 75 geenin luettelon neljään ryhmään: (i) Geenit on merkitty ”vahvistetuiksi”, jos molemmat aiemmin käsitellyt ulkoiset resurssit ovat ilmoittaneet ne pakeneviksi. Tällaisia geenejä on 31, joiden osalta tämä tutkimus antaa lisävahvistuksen siitä, että ne ovat pakenevia geenejä. (ii) Lisäksi 7 geeniä on merkitty merkinnällä ”hyväksytty”. Nämä geenit on merkitty pakeneviksi geeneiksi vain jommassakummassa ulkoisessa lähteessä . Näiden geenien osalta tässä tutkimuksessa saadut riippumattomat todisteet vahvistavat niiden identiteetin. (iii) Lisäksi 12 geeniä on merkitty ”todennäköisiksi” pakeneviksi geeneiksi. Nämä geenit on merkitty sen mukaan, että 114:stä pakenevasta geenistä on päästy yhteisymmärrykseen toisen ulkoisen raportin kanssa, joka ei sisältynyt kirjallisuuteen perustuvaan luetteloon ja jota voidaan näin ollen pitää riippumattomana lähteenä. (iv) Lisäksi 25 geeniä on merkitty ”mahdollisiksi” pakeneviksi geeneiksi. Näiltä geeneiltä puuttuu kirjallisuusnäyttö, joka tukisi niiden identiteettiä, joten niiden luokittelu pakeneviksi geeneiksi on vähemmän tuettu. Niiden joukossa on 5 geeniä, jotka saavat tukea ainoastaan lymfoblastista peräisin olevasta outlier-solusta ja ovat siten todennäköisesti vääriä. Tässä joukossa on lisäksi 10 geeniä, joita ei ole raportoitu yhdessäkään kolmesta käsitellystä ulkoisesta lähteestä , Suurin osa huomiotta jääneistä lncRNA:ista kuuluu tähän ryhmään. Kaksi näistä huomiotta jääneistä pakenevista lncRNA:ista (TCONS_00017125 ja TCONS_00017281, kuva 6b) sijaitsee PAR-alueella, joka on poikkeuksellisen aktiivinen biallelisessa transkriptiossa. Kuvan 6d lähdetiedot ovat lisätiedostossa 6: Taulukko S5.

.

admin

Vastaa

Sähköpostiosoitettasi ei julkaista.

lg