- A framework for measuring the escape from X-inactivation in single cells
- Biallelisen ilmentymisen kvantitointi yksittäisten solujen primaarisista fibroblasteista
- Identifying escapees in single cell primary fibroblasts
- Quantifying allelic expression from clonal phased lymphoblasts
- Pakolaisten tunnistaminen yksisoluisista lymfoblasteista
- Tunnistettujen pakenemisten vertailu nykytietämykseen
- LncRNA:t laajentavat pakenemiskandidaattiluetteloa
- Karkulaisgeenien todistusaineistoon perustuva jako
A framework for measuring the escape from X-inactivation in single cells
Tunnistamme geenien pakenijat analysoimalla geenien ilmentymistä yksittäisten solujen somaattisista soluistakin scRNA-sek-menetelmää käyttäen (ks. Methods). Arvioidaksemme menetelmän herkkyyttä vertaamme X-kromosomin (ChrX) ekspressiota muihin autosomaalisiin kromosomeihin. Erityisesti keskityimme geenirikkaaseen kromosomiin 17 (Chr17) autosomaalisen kromosomin prototyyppinä. Chr17 valittiin, koska se edustaa kromosomia, jossa on minimaalinen määrä vanhemmille spesifisesti painuneita geenejä . ChrX:n ja Chr17:n kvantitatiiviset ominaisuudet on lueteltu kuvassa 1a.
Tämä tutkimus perustuu kahden naisperäisen resurssin analysointiin: (i) primaariset UCF1014-fibroblastit (104 solua, ks. menetelmät). Tätä joukkoa täsmentää kattavampi transkriptomitieto, mutta siitä puuttuu tieto haplotyyppien vaiheistuksesta (kuva 1b); (ii) pienempi tietokokonaisuus GM12878-solulinjasta peräisin olevista kloonisista lymfoblasteista (n = 25), joilla on täysin vaiheistetut ja sekvensoidut vanhempien diploidiset genomit (kuva 1c). Molemmissa tietokokonaisuuksissa heterotsygoottisten SNP:iden (hSNP:iden) transkriptio on tietolähde monoallelisen tai biallelisen ilmentymisen määrittämiseksi. Jokaista hSNP:tä jokaisessa solussa, joka saa tukea ennalta määritetyn kynnysarvon ylittävästä ekspressiosta, pidetään informatiivisena SNP:nä (iSNP) (ks. menetelmät, lisätiedosto 1: teksti). iSNP:iden summa per geeni määrittelee sen yksilöllisen leiman inaktivoituneeksi tai pakenevaksi geeniksi (ks. Menetelmät, Kuva 1b-c, Lisätiedosto 1: Teksti).
Biallelisen ilmentymisen kvantitointi yksittäisten solujen primaarisista fibroblasteista
Analysoimme julkaistua scRNA-Seq-dataa naaraspuolisista primaarisista ihmisen fibroblasteista . Ennen analyysia huolehdimme kokeellisesta sudenkuopasta, joka liittyy moniin yksisolututkimuksiin. Tämä sudenkuoppa koskee solupareja, joissa sekvensoidaan useampi kuin yksi solu yhtä kirjastoa kohti. Tällaisessa skenaariossa eri aktiiviset X-kromosomit (Xa) kahdesta eri solusta, jotka sisältyvät näytteeseen, tuottavat biallelisen signaalin koko X-kromosomia pitkin. Vaikka dublettien osuuden odotetaan olevan pieni, se voi johtaa väärään tulkintaan. Siksi ennen fibroblasteista saatujen tietojen analysointia kävimme uudelleen läpi kaikki 104 fibroblastia ja testasimme niiden biallelia-suhteen ChrX:n suhteen (ks. Menetelmät). Kolmessa solussa havaittiin poikkeuksellisen korkea biallelisen ilmentymisen aste, mikä saattaa viitata kahden vanhemman X-kromosomin sekoitukseen (lisätiedosto 1: teksti ja kuva S3). Poistimme kaikki kolme epäilyttävää solua kaikista analyyseistä.
Seuraavaksi laskimme jokaisen yksittäisen solun osalta niiden lukujen lukumäärän, jotka oli kartoitettu yksikäsitteisesti hSNP-alleeleihin. Kunkin iSNP:n alleelisuhde (AR) määritellään vaihtoehtoiselle alleelille (Alt) kartoitettujen lukujen osuutena kaikista lukemista (ks. menetelmät, lisätiedosto 2: taulukko S1). Kuvissa 2a-c esitetään yhteenveto ChrX:n, Chr17:n ja koko autosomaalisten kromosomien AR:stä primaaristen fibroblastien kokoelman mukaan (101 solua 104:stä). Lisäksi kuvassa 2d esitetään ihokudoksista peräisin olevien imprintoituneiden geenien annotoidun joukon AR:n jakauma (mukaan ). Kuten aiemmin on raportoitu, kartoituksessa on selvästi havaittavissa harhaa kohti referenssigenomia (AR = 0) (kuvat 2a-d). Lisäksi kaikissa testatuissa joukoissa havaittiin huomattava osuus monoallelisesta ilmentymisestä (kuvat 2a-d). Tämä monoallelisen ilmentymisen hallitseva esiintyminen yksittäisissä soluissa johtuu sekä transkriptien alimman näytteenoton että ilmiön, joka tunnetaan nimellä ”transkription puhkeaminen”, yhdistelmästä .
Keskityimme vain iSNP:iin, jotka osoittavat ei-monoallelista allekirjoitusta (ts. pois lukien AR = 0 ja AR = 1). Havaitsimme merkittävän eron ChrX:n ja imprintoitujen geenien AR-jakaumassa suhteessa Chr17:ään ja kaikkiin autosomaalisiin kromosomeihin (vertaa kuvia 2a-b ja 2c-d). Näin ollen kuvassa 2 esitetyistä tuloksista voidaan tehdä useita havaintoja: (i) Chr17:llä ja kaikilla autosomeilla on samanlainen AR-profiili. (ii) Selvä taipumus tasapainoiseen ilmentymiseen (AR = 0,5) on havaittavissa kaikilla autosomaalisilla kromosomeilla (kuvat 2a-b), mutta ei ChrX:llä tai imprintoituneilla geeneillä (kuvat 2c-d). (iii) Ei-monoallelisen ilmentymisen osuus autosomaalisissa kromosomeissa on suurempi (~ 18 %) suhteessa ChrX-geeneihin (~ 9 %). (iv) Ei-monoallelisen ilmentymisen osuus imprintoituneissa geeneissä on keskitasoa (13 %). Tällainen välitaso heijastaa todennäköisesti imprintoitujen geenien identiteetin luontaista epäjohdonmukaisuutta . Lisätiedosto 3: Taulukossa S2 on lueteltu tukevat iSNP:t kaikille analysoiduille kromosomeille fibroblasteissa, mukaan lukien imprintoitujen geenien joukko.
Identifying escapees in single cell primary fibroblasts
Primääritettyjen geenien tunnistaminen yksittäisten solujen primaarisissa fibroblasteissa
Primääritettyjen fibroblastien tietokokonaisuuksissa ChrX:llä ja Chr17:llä on yhteensä 232 geeniä ja 485 geeniä, jotka tukevat iSNP:n näyttöä. Koska näiltä soluilta puuttuu tieto genomin vaiheistuksesta (kuva 1b), tieto X-kromosomista pakenemisesta rajoittuu biallelisten iSNP:ien joukkoon (ks. kuva 1b). Yhdistimme iSNP:t niitä vastaavien geenien mukaan (kuva 1b). Aggregointi suoritetaan eri yksittäisille soluille ja useille iSNP:ille tietyn solu-geeniparin sisällä. Geeni leimataan escapee-ehdokkaaksi, kun siihen liittyy useita biallelisia iSNP:tä. Kaikkiaan tunnistimme 24 tällaista geeniä (taulukko 1), jotka muodostavat 10,3 prosenttia kaikista ChrX:ssä ilmentyvistä geeneistä. Odotetusti Chr17:ssä biallelista ilmentymistä osoittavien geenien osuus on huomattavasti suurempi (49,3 %, Lisätiedosto 4: Taulukko S3).
Taulukossa 1 on lueteltu pakenemiskandidaatit eri tukitasoilla. Esimerkiksi ZFX (sinkkisormi X-kromosomiproteiini) ja SMC1A (kromosomien rakenteellisen ylläpidon proteiini 1A) -geenit ovat vahvasti tuettuja, ja niillä on 103 ja 19 biallelista iSNP:tä. Pakenevien geenien tunnistamisen luotettavuutta lisää entisestään se, että vähintään kaksi riippumatonta solua on antanut tietoa biallelisesta ilmentymisestä. Osoitamme, että 24 geenistä 21 täytti tämän tiukan kriteerin (taulukko 1). Huomionarvoista on, että tunnistetuista pakenevista geeneistä havaitsimme vain kolme PAR-geeniä (SLC25A6, CD99 ja DHRSX, taulukko 1). Näiden geenien määrittäminen pakeneviksi geeneiksi vastaa odotettua PAR-ekspressiota. Ekspressoitujen PAR-geenien biallelisten PAR-geenien lukumäärän perusteella arvioimme, että pakenevien geenien väärien negatiivisten löydösten osuus on jopa 70 % (eli 7 ekspressoitua PAR-geeniä 10:stä jäi havaitsematta). Additional file 4: Table S3 shows the support for Table 1.
Quantifying allelic expression from clonal phased lymphoblasts
Yllä kuvatun protokollan merkittävä rajoitus koskee vanhempien haplotyyppivaiheistuksen puuttumista. Tässä tilanteessa iSNP:tä ei voida määrittää Xa:han tai Xi:hen. Näin ollen Xi:n satunnainen valinta, joka luonnehtii primaarisoluja, rajoittaa pakenevien geenipiirteiden löytymisnopeutta. Laajensimme scRNA-Seq-analyysin koskemaan naisperäisiä lymfoblasteja kloonisesta solulinjasta GM12878 . Katso kuva 1c ja lisätiedosto 1: Kuva S4.
Kuvassa 3a esitetään klonaalisten lymfoblastien yksittäisten solujen (n = 25) ilmentymisprofiili (Lisätiedosto 2: Taulukko S1, Lisätiedosto 5: Taulukko S4). Missä tahansa yksittäisessä solussa monoallelinen ilmentyminen heijastaa transkriptien alimman näytteenoton ja transkription puhkeamisen ilmiön yhdistelmää . On selvää, että Xa:sta peräisin oleva maternaalinen ekspressio dominoi (kuva 3a, yläosa). Tämä havainto vastaa solulinjan GM12878 raportoitua äidillistä Xa-alkuperää. Useimmissa analysoiduissa soluissa pieni mutta huomattava osa mitatusta kokonaisekspressiosta on peräisin isänpuoleisesta, Xi-kromosomista (kuva 3a, ylhäällä). Sitä vastoin Chr17:ssä ja autosomaalisissa kromosomeissa on yhtä paljon ekspressiota molemmista alleeleista (Kuva 3a, keski- ja alapaneeli).
Kuvasta käy ilmi, että transkriptiopurkauksen ilmiö vaikuttaa kaikkiin kromosomeihin, myös ChrX:ään. Arvioidaksemme tämän ilmiön vaikutusta geenien tunnistamiseen pakeneviksi verrattiin yksittäisiä soluja suhteessa solupooliin (Pool100, kuva 3a, oikea palkki). Vaikka suurin osa Chr17:n iSNP:istä näyttää biallelisia profiileja, ChrX:ää hallitsee edelleen äidin monoallelinen ilmentyminen.
Kuvassa 3b on aggregoitu näkymä ChrX:stä, Chr17:stä ja autosomaalisista kromosomeista. Tiedot perustuvat 375, 808 ja 20 212 ekspressoituun hSNP:hen. Kuvassa 3b (keskimmäinen ja oikeanpuoleinen paneeli) näkyy vanhempien alleelien yhtäläinen jakautuminen Chr17- ja autosomaalisista kromosomeista (kuva 3b, yläosa). Saman analyysin suorittaminen Pool100:sta kerätyille tiedoille (kuva 3c) osoittaa, että vanhempien alleelien jakautuminen pysyy käytännöllisesti katsoen muuttumattomana (vertaa vaaleanpunaisen ja sinisen värin miehittämää osuutta, kuva 3b-c). Lisäksi havaittiin siirtyminen monoallelisesta (kuva 3b-c, täytetty väri) bialleliseen ilmentymiseen (kuva 3b-c, raidallinen väri). Ch17:n biallelisen ilmentymisen osuus kasvoi 19 prosentista yksittäisissä soluissa 80 prosenttiin Pool100:ssa ja autosomaalisten kromosomien osalta 18 prosentista 79 prosenttiin (Kuva 3-c, keskimmäinen ja oikea paneeli). Pool100:sta saadut tulokset osoittavat, että yksittäisissä soluissa havaittu monoallelinen ekspressio käytännössä häviää, kun signaali keskiarvoistetaan.
Tulokset ChrX:stä (Kuva 3b (vasen)) eroavat oleellisesti Chr17:stä tai autosomaalisista kromosomeista (Kuva 3b-c). Merkittävin ero on se, että vain 21 % ilmentyneistä iSNP:istä liittyy isän Xi-alleeliin ChrX:ssä (Kuva 3b, ylhäällä). Lisäksi Pool100:a analysoitaessa biallelisen ilmentymisen osuus pysyy rajallisena (siirtymä yksittäisten solujen 9 prosentista 34 prosenttiin Pool100:ssa). Pool100:sta havaittu ChrX:n kuvio (kuva 3c, vasemmalla) selittyy parhaiten stokastisen monoallelisen signaalin keskiarvoistamisella (samassa määrin kuin muissa kromosomeissa) säilyttäen samalla Xa-monoallelisen ilmentymän voimakkaan signaalin. Katso lisätiedosto 5: Taulukko S4 kaikkien testattujen kromosomien ja Pool100:n lymfoblastien alleelisuhteet.
Pakolaisten tunnistaminen yksisoluisista lymfoblasteista
Kuvassa 4a on geenikeskeinen näkymä, jossa näkyy iSNP:n alleelien jakautuminen lymfoblasteista (väritettynä sen mukaan, ovatko ne alkuperältään äidillisiä, isänpuoleisia vai sekoitettuja ilmentymiä, ks. Menetelmät). Ainoastaan niiden geenien osajoukko, joita useat iSNP:t tukevat, on lueteltu sen mukaan, miten ne on järjestetty kromosomeja pitkin. Kaikkiaan raportoimme 93 annotoidusta geenistä ChrX:ssä (kuva 4a, 30 pakenevaa ja 63 inaktivoitua geeniä). Huomaa, että X-inaktivoituneet geenit ovat geenejä, jotka ilmentyvät ensisijaisesti äidin Xa:sta. ChrX:n p-kaaren kärjessä oleva isällisen ilmentymisen omaavien geenien klusteri edustaa PAR-geeneistä odotettua biallelista ilmentymistä (kuva 4a). Lisänäyttöä isällisestä ekspressiosta on paikallistettu XIC:hen geeneillä, kuten XIST, JPX ja FTX. Vaikka suurinta osaa pakenevista geeneistä tukee rajallinen määrä iSNP:tä, muutamia niistä, kuten ZFX, CD99 ja SLC25A6, tukee suhteellisen suuri määrä tukevia iSNP:tä (48, 38 ja 34 vastaavasti).
Vaihtoehtoinen menetelmä X-inaktivoitumisilmiön laajuuden arvioimiseksi on kvantifioida todistusaineisto suoraan kaikkien sekvensoitujen lukujen summasta (lyhennettynä lukupohjainen protokolla). Kuvissa 4b-c verrataan lukumääriä Chr17:stä (kuvat 4b) ja ChrX:stä (kuva 4c) isän ja äidin alkuperän mukaan. Vertailemme yksittäisten solujen ja Pool100:n ekspressiotietoja. Chr17:stä peräisin olevan geeniekspression lineaarinen regressio osoittaa korkean korrelaation sovituslinjan (r2 = 0,823, kuva 4b). Odotetusti korrelaatio on vahvempi Pool100:sta peräisin olevissa tiedoissa (r2 = 0,946, kuva 4b). Päättelimme, että huolimatta transkription purkautumisilmiöstä johtuvasta monoallelisesta ekspressiosta, kaikkien geenien tasapainoinen alleelinen ekspressio on vahvasti tuettu. ChrX:n osalta yksittäisten solujen tuloksena saatu lineaarinen regressio on kuitenkin heikko (r2 = 0,238, kuva 4c), eivätkä Pool100:sta saadut tiedot parantaneet sitä (r2 = 0,222, kuva 4d). ChrX:n ekspressiotietojen tarkastelu osoittaa, että regressiosuorat itse asiassa kallistuvat kohti äidin Xa:n ekspressiota (x-akseli). Ekspressiotiedot ovat sopusoinnussa kahden eri regressiosuoran kanssa ChrX:n osalta. Toinen vastaa inaktivoituja geenejä (yhdensuuntainen x-akselin kanssa) ja toinen vastaa luotettavasti biallelista ekspressiota.
Konservatiivisen iSNP-pohjaisen protokollan soveltaminen johtaa 30 geenin tunnistamiseen pakenemiskandidaateiksi, joita myös lukupohjainen protokolla tukee (taulukko 2). Lukupohjainen (ts, geenin merkitseminen pakenevaksi geeniksi, jos sillä on vähimmäismäärä isänpuoleisia lukemia, ks. menetelmät) protokolla laajensi pakenevien ehdokkaiden luetteloa siten, että se sisälsi kaikkiaan 49 geeniä (lisätiedosto 4: taulukko S3).
Testata geenin varrella olevien alleelien vanhempien alkuperää samassa solussa on tiukka testi iSNP:iden luotettavuuden arvioimiseksi. Tämä testi on pätevä vain geeneille, joissa on useita hSNP:tä. Tällaisia geenejä, joita tuetaan kahdella tai useammalla ilmentävällä hSNP:llä, on 44 % geeneistä. Pidämme geeniä johdonmukaisena, jos geenin pitkin tapahtuva ilmentyminen tietyssä solussa ei ole monoallelista molemmille alleeleille. Kaikkiaan tunnistimme 3 epäjohdonmukaista geeniä – TEX11, FTX ja ZCCHC16. Muiden kuuden geenin kohdalla epäjohdonmukaisuus on vain osittaista, koska biallelisesta ilmentymisestä on muitakin havaintoja. Täydellisen epäjohdonmukaisuuden arvio (3 geeniä 29:stä tähän testiin soveltuvasta geenistä) viittaa siihen, että virheellisen tulkinnan yläraja on 10 %. Lisäksi iSNP-pohjainen protokolla tunnisti yhdeksän 11:stä ilmentyneestä PAR-geenistä. Näin ollen ekstrapoloimme karanneiden havaitsemisprosentiksi 82 %. Mielenkiintoista on, että Chr17:n analysointi olettaen, että systemaattista alleeliharhaa ei ole , osoitti, että 7,3 % ja 9,6 % geeneistä liittyi vastaavasti äidin ja isän monoalleliseen ilmentymiseen. Nämä tulokset antavat 17,9 %:n ylärajan väärien geenimerkintöjen todennäköisyydelle Chr17:ssä, ja niitä voidaan käyttää menetelmän rajoituksen arvioimiseen.
Vaatimus isänpuoleisesta todistusaineistosta vähintään kahdesta solusta vähentää pakenevien geenien määrän 49:stä 18:aan (mukaan lukien 5 PAR-geeniä). Monet yksittäiset todistusgeenit, jotka johtuvat tietystä outlier-solusta (SRR764803), joka vaikutti 17:ään 49:stä raportoidusta geenistä (taulukko 2, lisätiedosto 5: taulukko S4). Tällä solulla on korkeimmat ekspressiotasot sekä ChrX:ssä että Chr17:ssä (lisätiedosto 1: teksti ja kuva S4). Taulukossa 2 luetellaan löydetyt pakenemiskandidaatit sekä niitä tukevat todisteet (Taulukko 2).
Tunnistettujen pakenemisten vertailu nykytietämykseen
Testasimme tutkimuksessamme tunnistettujen pakenemisten ja kirjallisuuteen perustuvan luettelon vastaavuutta . Tämä yhtenäinen luettelo koottiin neljän riippumattoman tutkimuksen integroinnista, joka kattaa 1144 geeniä ChrX:stä. Tämän luettelon geenit on jaettu manuaalisesti yhdeksään määriteltyyn luokkaan (ks. Menetelmät). Suurin niistä koskee geenejä, joista puuttuu tietoa (45 %) . Noin 15 % geeneistä (168/1144) katsotaan ”escapee-assosioituneiksi” (ks. menetelmät). Pidämme koottua ’escapee-assosioituneiden’ geenien joukkoa kultaisena standardina testataksemme escapeen löytymisastetta tutkimuksessamme (yhteensä 124 geeniä, poislukien PAR-geenit, joita kutsutaan yhteisesti nimellä Balaton-Esc).
Sovelsimme hypergeometristä tilastollista testiä (ks. Menetelmät) arvioidaksemme eri escapee-geeniluetteloiden päällekkäisyyksiä (Kuva 5). Kuvassa 5a esitetään fibroblastien ja lymfoblastien tunnistettujen pakenevien geenien määrä (pois lukien PAR-geenit). Huomaa, että vain Balaton-Esc-vertailussa mukana olevat geenit sisältyvät tähän analyysiin (kuva 5). Kuvassa 5b esitetään kuvasta 5a saatujen geeniluetteloiden ja Balaton-Esc-vertailun geeniluetteloiden välisen päällekkäisyyden tilastollinen merkitsevyys. Kuten voidaan nähdä, lymfoblastien (taulukko 2 ja lisätiedosto 4: taulukko S3) ja Balaton-Esc-luettelon (kuva 5b, p-arvo = 7,43E-8) välillä on merkittävä päällekkäisyys. Saman testin soveltaminen primaarisiin fibroblasteihin (taulukko 1) johti vähäisempään merkitsevyyteen (p-arvo = 4.07E-2).
Kuvassa 5c on esitetty tutkimuksessamme tunnistettujen escape-geenien ja Balaton-Esc-katalogin (168 geeniä, mukaan lukien PAR-geenit) päällekkäiset geenit . Liitimme mukaan myös täydentävän resurssin, joka perustuu 940 scRNA-Seq:n transkriptomiin (25 pakenevaa geeniä, Tukiainen-Esc) . Venn-diagrammi osoittaa, että kukin edellä mainituista tutkimuksista lisää osaltaan nykyistä tietämystä pakolaisista. Kahden ulkoisen resurssin sisältämät pakenevat geenit ovat päällekkäisiä 18:ssa 25 raportoidusta geenistä (72 %). Kuten kuvasta 5c käy ilmi, 62 % lymfoblasteista raportoiduista pakenemisgeeneistä on päällekkäisiä ulkoisten pakenemisgeeniluetteloiden kanssa, kun taas fibroblastien tukena on vain 38 % päällekkäisyyttä. Huomattavaa on, että suurimmalla osalla fibroblasteista löytämistämme pakenemiskandidaattigeeneistä (62 %) ei ole vastaavuutta muiden testattujen luetteloiden kanssa (Lisätiedosto 6: Taulukko S5).
LncRNA:t laajentavat pakenemiskandidaattiluetteloa
Alaajensimme analyysimme koskemaan myös pitkiä ei-koodaavia RNA:ita (lncRNA:ita), ja käytimme tässä analyysissämme samoja pakenemisperusteiden kriteerejä, joita käytimme koodaavien geenien kohdalla (Kuva 6). Kaikkiaan tunnistimme 15 lncRNA:ta escapee-ehdokkaiksi, joista vain muutamia oli tutkittu aiemmin. LncRNA:iden ja koodaavien pakenevien geenien sijainti ChrX:ää pitkin on esitetty (kuva 6a). Testasimme pakenevien geenien sijaintia ChrX:n varrella suhteessa kaikkiin ChrX-geeneihin. Vaikka lncRNA-pakotteiden sijaintijakauma on samanlainen (Kolmogorov-Smirnovin testi, p-arvo = 0,57), se on erilainen koodaavien pakotteiden kohdalla (Kolmogorov-Smirnovin testi, p-arvo = 0,004, kuva 6a).
Kuvassa 6b on lueteltu kaikki 15 tunnistettua lncRNA-karkurigeeniä, joiden joukossa on ncRNA-geenejä XIC:stä, jotka koordinoivat X-aktivaation aktivointia ja ylläpitoa. Monet lncRNA:t lokalisoituvat transkriptiivisesti aktiivisiin segmentteihin (esim. PAR:n tai XIC:n sisällä), kun taas toiset lokalisoituvat ei-konservoiduille alueille, jotka ovat rikastuneet pitkillä ja lyhyillä ncRNA:illa. Muista lncRNA:ista, mukaan lukien inaktivoidut geenit, ks. lisätiedosto 7: taulukko S6.
Karkulaisgeenien todistusaineistoon perustuva jako
Kuvassa 6c esitetään yhteenveto todistusaineiston mukaisesta jaosta kaikkien niiden geenien osalta, jotka on raportoitu millä tahansa luotettavuustasolla pakolaisgeeneiksi (lisätiedosto 6: taulukko S5). Tämä luettelo sisältää 75 ehdokasta, jotka on raportoitu tässä tutkimuksessa, mukaan lukien todisteet Pool100:sta, joka on kokoelma uusia lncRNA:ita. Kuvassa 6d on yksityiskohtainen luettelo tästä aineistosta saadusta havainnosta ottaen huomioon serval ulkoiset resurssit. Jokaisen geenin kohdalla ilmoitetaan myös todisteen antaneiden solujen lukumäärä.
Kun otimme nämä ulkoiset resurssit huomioon, sovitimme jokaisen geenin yhteen siihen liittyvän riippumattoman tuen laadun mukaan (kuvat 6c ja d). Erityisesti jaoimme 75 geenin luettelon neljään ryhmään: (i) Geenit on merkitty ”vahvistetuiksi”, jos molemmat aiemmin käsitellyt ulkoiset resurssit ovat ilmoittaneet ne pakeneviksi. Tällaisia geenejä on 31, joiden osalta tämä tutkimus antaa lisävahvistuksen siitä, että ne ovat pakenevia geenejä. (ii) Lisäksi 7 geeniä on merkitty merkinnällä ”hyväksytty”. Nämä geenit on merkitty pakeneviksi geeneiksi vain jommassakummassa ulkoisessa lähteessä . Näiden geenien osalta tässä tutkimuksessa saadut riippumattomat todisteet vahvistavat niiden identiteetin. (iii) Lisäksi 12 geeniä on merkitty ”todennäköisiksi” pakeneviksi geeneiksi. Nämä geenit on merkitty sen mukaan, että 114:stä pakenevasta geenistä on päästy yhteisymmärrykseen toisen ulkoisen raportin kanssa, joka ei sisältynyt kirjallisuuteen perustuvaan luetteloon ja jota voidaan näin ollen pitää riippumattomana lähteenä. (iv) Lisäksi 25 geeniä on merkitty ”mahdollisiksi” pakeneviksi geeneiksi. Näiltä geeneiltä puuttuu kirjallisuusnäyttö, joka tukisi niiden identiteettiä, joten niiden luokittelu pakeneviksi geeneiksi on vähemmän tuettu. Niiden joukossa on 5 geeniä, jotka saavat tukea ainoastaan lymfoblastista peräisin olevasta outlier-solusta ja ovat siten todennäköisesti vääriä. Tässä joukossa on lisäksi 10 geeniä, joita ei ole raportoitu yhdessäkään kolmesta käsitellystä ulkoisesta lähteestä , Suurin osa huomiotta jääneistä lncRNA:ista kuuluu tähän ryhmään. Kaksi näistä huomiotta jääneistä pakenevista lncRNA:ista (TCONS_00017125 ja TCONS_00017281, kuva 6b) sijaitsee PAR-alueella, joka on poikkeuksellisen aktiivinen biallelisessa transkriptiossa. Kuvan 6d lähdetiedot ovat lisätiedostossa 6: Taulukko S5.
.