- 単一細胞におけるX不活性化からの脱出を測定する枠組み
- Quantifying biallelic expression from single cell primary fibroblasts
- 単細胞初代線維芽細胞におけるエスケープ遺伝子の同定
- クローン位相化リンパ芽細胞からの対立遺伝子発現の定量化
- Identifying escapees from single cell lymphoblasts
- Comparison of the identified escapees to current knowledge
- LncRNAs extend the list of escapee candidates
- Evidence-based partition of escapee genes
単一細胞におけるX不活性化からの脱出を測定する枠組み
scRNA-SEQ手法を用いた体細胞の単一細胞の遺伝子発現分析により脱出者を特定する(Methods参照)。 本手法の感度を評価するため、X染色体(ChrX)の発現を他の常染色体と比較する。 具体的には、常染色体のプロトタイプとして、遺伝子豊富な17番染色体(Chr17)に注目した。 Chr17は、親特有のインプリント遺伝子の数が少ない染色体であることから選択された。 図1
単一細胞からのエスケープ遺伝子同定のワークフロー a ChrXとChr17の定量的特性はGRCh37(GRC Human Build 37)に従って記載しています b 単一細胞の初代線維芽細胞の解析スキーム。 核の2色はXaのランダムな選択を表している。 線維芽細胞の文脈では、各XaはhSNPsに対して異なる発現パターンを示す。 iSNPsのそれぞれは、参照対立遺伝子(R)または代替対立遺伝子(A)に割り当てることができる。 Xaがランダムに不活性化され、hSNPが段階的でないため、遺伝子をエスケープとして注釈することは、二重発現のiSNPの複数の証拠を持つことに完全に基づいて行われる。 図示の表は、各細胞のhSNPs(左側)からのiSNPをAまたはRとして解析し、iSNPsの証拠の蓄積に応じて遺伝子のアノテーションを行ったものである。 図では、4つの単一細胞(cell-1〜cell-4)由来のhSNPをマークしている。 このhSNPは3つの遺伝子(遺伝子a〜遺伝子cと記す)に関連している。 遺伝子aは複数のバイアルル型iSNPsを持つ唯一の遺伝子であり、Escapee gene (Esc) としてアノテーションされている。 他の2つの遺伝子は、バイアル中のiSNPを持たないか(遺伝子b)、バイアル中発現の証拠となるiSNPを1つだけ持つ(遺伝子c)ので、Inactivated gene(Ina)と注釈されている。 c 単一細胞のクローンリンパブラストのスキーム。 初代線維芽細胞(b)とは対照的に、Xaの親由来はすべての細胞で同一である。 GM12878細胞株の場合、Xaは母方(M)対立遺伝子と関連している(ピンク色の核で象徴される)。 リンパ芽細胞では、父方の対立遺伝子(Pと表示)が存在すれば、Xiから発現しているiSNPを特定するのに十分であり、したがって、エスケープと注釈することが可能である。 右の表は、リンパ芽球のescapeeの割り当てを強調したものである。 表のカテゴリは(b)と同じである。 ワークフローと適用したプロトコルの詳細は、Additional file 1: Text and Figure S1
この研究は、2つの女性由来リソースの分析に基づいています。 (i) Primary UCF1014 fibroblasts (with 104 cells, see Methods). このセットは、より高いカバレッジのトランスクリプトームデータによって特定されるが、ハプロタイプフェージングに関する情報がない(図1b); (ii) GM12878細胞ラインからのクローンリンパブラストの小さなデータセット(n = 25)は、完全にフェージングし配列決定した親二倍体ゲノムを有する(図1c)。 両データセットとも、ヘテロ接合型SNP(hSNP)における転写が、単離または二重発現を決定するための情報源である。 各hSNPは、すべての細胞において、所定の閾値以上の発現証拠によってサポートされている場合、情報提供SNP(iSNP)とみなされます(方法、追加ファイル1:テキストを参照)。 遺伝子ごとのiSNPの合計は、不活性化またはエスケープ遺伝子としてその固有のラベルを定義する(方法、図1b-c、追加ファイル1:テキストを参照)
Quantifying biallelic expression from single cell primary fibroblasts
We analyze the published scRNA-Seq data from female primary human fibroblast . 解析の前に、多くのシングルセル研究に関連する実験的な落とし穴に対処した。 このピットフォールは、1つのライブラリに複数の細胞が配列決定されるセルダブルに関するものである。 このような場合、サンプルに含まれる2つの異なる細胞からの異なる活性X染色体(Xa)は、X染色体全体に沿って二重鎖シグナルを生成することになる。 二重鎖の割合は小さいと予想されますが、間違った解釈をする可能性があります。 そこで、線維芽細胞のデータを解析する前に、104個の線維芽細胞をすべて再確認し、ChrXに関する二重鎖の比率をテストした(方法参照)。 3つの細胞は、2つの親X染色体の混合を示すかもしれない例外的に高いバイレリック発現を示した(Additional file 1: Text and Figure S3)。
次に、各細胞について、hSNP対立遺伝子に一意にマッピングされたリードの数を数えた。 各iSNPの対立遺伝子比(AR)は、全リードのうち代替対立遺伝子(Alt)にマッピングされたリードの割合として定義される(方法、追加ファイル2:表S1参照)。 図2a-cは、初代線維芽細胞コレクション(104細胞中101細胞)に応じたChrX、Chr17、常染色体全体のARをまとめたものである。 また、Fig. 2dは、皮膚組織から採取したインプリント遺伝子の注釈付きセットのARの分布を示したものである(according to)。 先に報告したように、参照ゲノム(AR = 0)へのマッピングの偏りが明らかである(Fig. 2a-d)。 さらに、すべてのテストセットにおいて、かなりの割合のモノアレリック発現が観察された(Fig. 2a-d)。 この単一細胞におけるモノアレリック発現の支配的な出現は、転写物のサンプリング不足と、「転写バースト」として知られる現象の両方の組み合わせによって引き起こされる.
非モノアレルシグネチャーを示すiSNPのみ(つまり、AR = 0とAR = 1を除く)に着目した。 Chr17や全常染色体に対して、ChrXやインプリント遺伝子のAR分布には顕著な違いが見られた(図2a〜bと図2c〜dを比較)。 したがって、Fig. 2の結果からいくつかの観察ができる。 (i) Chr17とすべての常染色体には、同様のARプロファイルが存在する。 (ii)常染色体のいずれにおいても、バランスのとれた発現(AR=0.5)の傾向が明らかであるが、ChrXやインプリントされた遺伝子では見られない(図2c〜d)。 (常染色体における非モノアレルリック発現の割合は、ChrX(〜9%)に対して高い(〜18%)。 (インプリント遺伝子における非単一性発現の割合は、13%と中間的なレベルである。 このような中間的なレベルは、おそらくインプリント遺伝子のアイデンティティに内在する矛盾を反映したものである。
単細胞初代線維芽細胞におけるエスケープ遺伝子の同定
初代線維芽細胞のデータセットでは、ChrXとChr17のiSNPsの証拠によってサポートされている遺伝子はそれぞれ232と485であった。 これらの細胞にはゲノム位相の情報がないため(図1b)、X染色体からの脱出に関する情報は二重鎖のiSNPsのセットに限られる(図1b参照)。 我々はiSNPを対応する遺伝子に従って集約した(Fig. 1b)。 集計は、異なる単一細胞、および特定の細胞-遺伝子ペア内の複数のiSNPにまたがって行われる。 ある遺伝子が複数のバイアルル型iSNPsと関連している場合、エスケープ候補とラベル付けされる。 このような遺伝子は24個あり、ChrXの全発現遺伝子の10.3%を占めた(表1)。
表1は、様々な程度のサポートでエスケープ候補をリストアップしています。 例えば、ZFX(Zinc finger X-chromosomal protein)とSMC1A(Structural maintenance of chromosomes protein 1A)遺伝子は、それぞれ103と19の二重鎖iSNPsで強く支持されている。 エスケープの同定の信頼性をさらに高めるには、二重鎖発現の情報を提供する独立した細胞が少なくとも2つあることが基本である。 24個の遺伝子のうち21個がこの厳しい基準を満たしていることが示された(表1)。 注目すべきは、同定されたエスケープの中で、3つのPAR遺伝子(SLC25A6、CD99、DHRSX、表1)しか検出されなかったことである。 これらの遺伝子のエスケープとしての割り当ては、予想されるPARの発現と一致する。 発現しているPAR遺伝子のうち、二重鎖のPAR遺伝子の数から、エスケープの偽陰性発見率は70%と高い(すなわち、10個の発現PAR遺伝子のうち7個を見逃す)ことが推定された。 追加ファイル4:表S3は、表1の支持を示す。
クローン位相化リンパ芽細胞からの対立遺伝子発現の定量化
上記のプロトコルの大きな制限は、親のハプロタイプ位相化がないことに関するものであった。 この設定では、iSNPはXaまたはXiに割り当てることができない。 その結果、初代細胞の特徴であるXiのランダムな選択により、エスケープの発見率が制限される。 我々は、scRNA-Seqの解析をクローン細胞株GM12878からの女性由来リンパ芽球に拡大しました。 図1cおよびAdditional file 1を参照。 図3aは、クローンリンパブラスト単細胞(n = 25)の発現プロファイルを示す(Additional file 2: Table S1、Additional file 5: Table S4)。 どの単一細胞においても、モノアレリックな発現は、転写産物のサンプリング不足と転写バースト現象の組み合わせを反映している。 Xaからの母性発現が支配的であることは明らかである(図3a、上)。 この結果は、細胞株GM12878で報告された母性Xa由来と一致する。 ほとんどの細胞で、測定された総発現量のうちわずかではあるが、かなりの割合が父方のXi染色体由来である(図3a、上)。 一方、Chr17と常染色体では、両アレルからの発現が等しい(図3a、中、下)。 3
25個の単細胞リンパ芽細胞からのiSNPsのラベルの定量化。 a 各単細胞は、ChrX、Chr17、およびすべての常染色体のタグ付き対立遺伝子iSNPsに従って分割された。 iSNPは母方(ピンク)、父方(水色)、バランス発現(灰色)に関連している。 細胞はiSNPの寄与に従って左から右に並べられている(Additional file 1: Figure S4)。 b ChrX、Chr17、常染色体上の全25個の単一細胞のiSNPsタグのパーティションのまとめ。 c Pool100のiSNPsタグのパーティションのまとめ。 青色とピンク色はそれぞれ父方の対立遺伝子と母方の対立遺伝子に関連している。 縞模様は父方(青)または母方(ピンク)アレルに傾いている二重鎖iSNPsを示す。 単細胞の場合、ChrXは375個、Chr17は808個、常染色体は20,212個のiSNPsに基づくデータである。 Pool100のデータは、ChrXが211 iSNPs、Chr17が216 iSNPs、常染色体が5360 iSNPsである。 出典はAdditional file 5: Table S4
図から、転写バースト現象はChrXを含むすべての染色体に影響を与えることがわかる。 この現象がエスケープとなる遺伝子の同定に与える影響を評価するために、細胞プール(Pool100、図3a、右棒)に関して単一細胞を比較検討した。 Chr17のiSNPの大部分は二重性プロファイルを示すが、ChrXは依然として母方の単相関発現が支配的である。 それぞれ375、808、20,212の発現hSNPに基づくデータである。 図3b(中・右)は、Chr17と常染色体から親アリルを均等に分割したものである(図3b・上)。 Pool100から収集したデータ(図3c)に対して同じ解析を行うと、親アレルのパーティションは実質的に変化していないことがわかる(ピンク色と青色が占める割合を比較、図3b-c)。 さらに、モノアレルリック(図3b-c、塗りつぶした色)からバイアレルリック(図3b-c、剥がした色)へのシフトも観察された。 Ch17については単細胞での19%からPool100では80%に、常染色体については18%から79%に二重発現の割合が増加した(図3c、中、右パネル)。 Pool100の結果は、単細胞で観察された単反復発現が、シグナルの平均化により実質的に消失したことを示している。
ChrX(図3b(左))の結果は、Chr17や常染色体(図3b-c)とは根本的に異なる。 最も顕著な違いは、ChrXでは発現したiSNPの21%しか父方のXi対立遺伝子と関連していないことである(図3b(上))。 さらに、Pool100を解析すると、二重発現の割合は境界があるままである(単細胞での9%からPool100での34%へのシフト)。 Pool100で観察されたChrXのパターン(図3c、左)は、Xa単体発現の強いシグナルを維持しつつ、(他の染色体と同程度の)確率的単離シグナルを平均化することで最もよく説明される。
Identifying escapees from single cell lymphoblasts
図4aは、リンパ芽細胞からのiSNP対立遺伝子分割を示す遺伝子中心のビューである(母性、父性または混合発現としてその起源に従って色分けされている、方法を参照されたい)。 複数のiSNPによってサポートされている遺伝子のサブセットのみを、染色体に沿った順序に従ってリストアップしている。 ChrX上の93の注釈付き遺伝子について報告する(図4a、30個のエスケープと63個の不活性化された遺伝子)。 なお、X不活性化遺伝子は、主に母方のXaから発現する遺伝子を占めている。 ChrX p-armの先端にある父性発現を持つ遺伝子群は、PAR遺伝子から予想される二重発現を表している(図4a)。 父性発現のさらなる証拠は、XIST、JPX、FTXなどの遺伝子がXICに局在していることである。 エスケープの多くは限られた数のiSNPで支持されているが、ZFX、CD99、SLC25A6のような少数のものは比較的多くの支持iSNP(それぞれ48、38、34)で支持されている。
X不活性化現象の程度を評価する別の方法として、すべての配列決定リードの合計から直接証拠を定量化する方法(リードベースプロトコルと略記)がある。 図4b-cは、Chr17(図4b)とChrX(図4c)のリード数を父方起源と母方起源で比較したものである。 また、単細胞とPool100の発現データを比較する。 Chr17からの遺伝子発現の線形回帰は、高い相関のフィットラインを示した(r2 = 0.823、Fig. 4b)。 また、予想通り、Pool100由来のデータでは、より強い相関が見られた(r2 = 0.946、Fig. 4b)。 このことから、転写バースト現象によるモノアレル発現はあるものの、すべての遺伝子でバランスのとれたアレル発現が強く支持されていると結論づけられる。 しかし、ChrXについては、単細胞での線形回帰の結果が悪く(r2 = 0.238、図4c)、Pool100のデータによっても改善されなかった(r2 = 0.222、図4d)。 ChrXの発現データを調べると、回帰直線は実際には母方のXa発現(x軸)の方に傾いていることがわかる。 発現データは、ChrXの2つの異なる回帰直線と一致している。 一つは不活性化された遺伝子と一致し(x軸に平行)、もう一つは信頼できるバイレリック発現と一致する。
保守的なiSNPベースのプロトコルを適用すると、読み取りベースのプロトコルでも支持されるエスケープ候補として30遺伝子が同定される(表2)。 リードベース(=.
同一細胞内の遺伝子に沿ったアレルの親の起源を調べることは、iSNPの信頼性に対する厳しいテストである。 このテストは複数のhSNPsを持つ遺伝子にのみ有効である。 このような、2つ以上の発現hSNPで支持される遺伝子は、44%を占める。 我々は、特定の細胞における遺伝子に沿った発現が両方のアレルにモノアレリックでない場合、その遺伝子は矛盾していると考える。 全部で3つの矛盾した遺伝子、TEX11、FTX、ZCCHC16が同定された。 他の6つの遺伝子については、バイアリル発現の他の観察結果があるため、矛盾は部分的である。 完全な不一致(このテストの対象となった29の遺伝子のうち3つ)からの推定では、誤った解釈の上限は10%であることが示唆される。 さらに、iSNPに基づくプロトコルは、11個の発現PAR遺伝子のうち9個を同定した。 従って、エスケープ検出率は82%と外挿される。 興味深いことに、系統的な対立遺伝子の偏りがないという仮定の下で、Chr17を解析すると、遺伝子の7.3%と9.6%がそれぞれ母親と父親のモノアレル発現と関連していることが示された。 これらの結果は,Chr17における偽の遺伝子標識の可能性を17.9%という上限で示し,本手法の限界の推定に利用できる.
少なくとも2つの細胞からの父方の証拠を要求することで,エスケープの数は49から18(PAR遺伝子5を含む)に減少した. 49の報告された遺伝子のうち17に寄与した特定の異常値細胞(SRR764803)から生じる多くの単一証拠遺伝子(表2、追加ファイル5:表S4)。 この細胞は、ChrXとChr17の両方で最も高い発現レベルを示した(Additional file 1: Text and Figure S4)。 表2には、発見されたエスケープ候補をその裏付けとともにリストアップしている(表2)。
Comparison of the identified escapees to current knowledge
We tested the correspondence between the identified escapees from our study and a literature-based catalog .我々は、我々の研究で発見されたエスケープ候補と、文献ベースのカタログとの対応関係を検証した。 この統一カタログは4つの独立した研究を統合して作られたもので、ChrXの1144の遺伝子をカバーしている。 このカタログの遺伝子は、手作業で9つの定義されたカテゴリーに分割されている(方法参照)。 最も大きいのは、情報が不足している遺伝子(45%)である。 また、約15%の遺伝子(168/1144)は “escapee-associated “とされている(Methodsを参照)。 我々は、この「escapee-associated」遺伝子のコンパイルセットを、我々の研究におけるescapeeの発見率を調べるためのゴールドスタンダードと考える(合計124遺伝子、PAR遺伝子を除く、総称してBalaton-Esc)
超幾何統計検定(方法参照)を適用して異なるescapee遺伝子リストの重複を評価した(図5)。 図5aは、線維芽細胞およびリンパ芽細胞から同定されたエスケープの数(PAR遺伝子を除く)を示している。 なお、この解析にはBalaton-Escベンチマークに含まれる遺伝子のみが含まれている(図5)。 図5bは、図5aの遺伝子リストとBalaton-Escの遺伝子リストとの重なりの統計的有意性を示したものである。 見てわかるように、リンパ芽球からの脱出者(表2、追加ファイル4:表S3)とバラトンEscリストの間に有意な重複がある(図5b、p値=7.43E-8)。 初代線維芽細胞(表1)について同じ検定を適用すると、有意性は低くなった(p値=4.07E-2)。
図5cは、本研究で同定したエスケープとBalaton-Escカタログ(PAR遺伝子を含む168遺伝子)との重複遺伝子を描いたものである。 また、scRNA-Seqによる940のトランスクリプトームに基づく補完的なリソース(25のエスケープ遺伝子、Tukiainen-Esc)も含まれています。 このベン図は、上記の各研究が逃避者についての現在の知見に寄与していることを示している。 2つの外部リソースからのエスケープは、25個の報告された遺伝子のうち18個(72%)が重複している。 図5cに示すように、リンパ芽細胞から報告されたエスケープの62%が外部のエスケープリストと重複しているのに対し、線維芽細胞は38%しか重複していないことが支持される。 注目すべきは、線維芽細胞から発見されたエスケープ候補遺伝子のほとんど(62%)が、他のテストしたリストと対応しないことである(追加ファイル6:表S5)。
LncRNAs extend the list of escapee candidates
我々は、コーディング遺伝子から用いたのと同じescapee基準を使ってlong non-coding RNAs(lncRNA)にも分析を拡張した(図6)。 その結果、15個のlncRNAがエスケープ候補として同定されたが、その中で既に研究されているものはごくわずかであった。 ChrXに沿ったlncRNAとコーディングエスケープの位置を示した(図6a)。 我々は、ChrXに沿ったエスケープの位置を、全てのChrX遺伝子に対して検証した。 lncRNAエスケープの位置分布は似ているが(Kolmogorov-Smirnov検定、p値=0.57)、コーディングエスケープについては異なっている(Kolmogorov-Smirnov検定、p値=0.004、図6a)。
図6bに、同定された15個のlncRNAエスケープ遺伝子すべてをリストアップし、その中で、X不活性化の活性化と維持を調整するXICからのncRNA遺伝子であった。 lncRNAの多くは転写活性セグメント(例えばPARやXIC内)に局在しているが、他のものは長短ncRNAが濃縮されている非保存領域に局在していることがわかる。 不活性化遺伝子を含む追加のlncRNAについては、追加ファイル7:表S6を参照。
Evidence-based partition of escapee genes
図6cは、任意のレベルの信頼度で逃亡者として報告されているすべての遺伝子についての証拠による分割をまとめた(追加ファイル6:表S5)。 このリストには、新規lncRNAのコレクションであるPool100からのエビデンスを含む、本研究で報告されている75の候補が含まれている。 図6dは、このデータから得られた知見の詳細なリストをservalの外部リソースに照らし合わせて示したものです。 これらの外部リソースを考慮し、各遺伝子をそれに関連する独立したサポートの質に従ってマッチングさせた(図6cとd)。 具体的には、75の遺伝子リストを4つのグループに分割した。 (i) 前述の外部リソースの両方からエスケープとして報告された遺伝子は「確認済み」とラベル付けされる。 このような遺伝子は31個あり、本研究によりエスケープであることがさらに確認された。 (ii)さらに7つの遺伝子を “approved “と表示した。 これらの遺伝子は、2つの外部リソースのうちの1つだけによってエスケープとしてタグ付けされています。 これらの遺伝子については、本研究からの独立した証拠により、その同一性が承認された。 (iii) 追加の12個の遺伝子は、”probable “エスケープとしてマークされています。 これらの遺伝子は、文献ベースのカタログに含まれていない114のエスケープについて報告する追加の外部レポートとの合意に従って割り当てられ、したがって、独立したリソースとして考えることができます。 (iv) さらに25の遺伝子を “可能性のある “エスケープとしてマークしています。 これらの遺伝子は、その同一性を支持する文献的証拠を欠いており、したがって、エスケープとしての割り当ては、あまり支持されないままである。 これらのうち、5つの遺伝子はリンパ芽球の異常細胞からのみ支持されており、したがって、偽の可能性が高い。 また、3つの外部リソースで報告されていない10個の遺伝子があり、見落とされたlncRNAの大部分はこのグループに属しています。 これらの見落とされたescape lncRNAのうち2つ(TCONS_00017125, TCONS_00017281、図6b)はバイアルル転写で例外的に活発なPAR領域に位置しています。 図6dのソースデータは、Additional file 6: Table S5.に掲載されている
。