5月 30, 2021 admin “どんな生きた細胞も、その祖先による10億年にわたる実験の経験を携えている”. Max Delbruck, 1949. 1953年に二重らせんが発見されると、直ちにDNAに生物情報がどのように符号化されているのかについて疑問が投げかけられた1。 DNA は、アデニン (A)、シトシン (C)、グアニン (G)、チミン (T) のどの組み合わせでも、ほぼすべての塩基対の配列に対応でき、したがって、どんなデジタルメッセージや情報も格納できることが、この構造の大きな特徴となっています。 DNAとRNAのアルファベットの4つの塩基は、タンパク質のアルファベットの20のアミノ酸とトリプレットコード(遺伝子の3文字(コドン)がそれぞれ1つのアミノ酸をコードする)で結ばれているのだ3。 例えば、AGTはセリンというアミノ酸をコードしている。 アミノ酸を構成するDNAの文字の辞書は、遺伝暗号と呼ばれている4。 64種類の三重項またはコドンがあり、そのうち61種類がアミノ酸をコードし(異なる三重項が同じアミノ酸をコードすることもある)、3種類が「区切り」として使われ、成長するタンパク質鎖の終了を知らせている 二重らせんの分子補数(DNAの一方の鎖上の各塩基と相手鎖上のその相補塩基がペアになる)は、生物学にとって大きな意味を持つ。 ジェームズ・ワトソンとフランシス・クリックがその画期的な論文で示唆したように1、塩基対は、DNA複製の際に遺伝物質が忠実にコピーされることを説明するテンプレートコピーのメカニズムを示唆している(本号のアルバーツによる論文、431ページ参照)。 また、DNAを鋳型としたmRNAの合成や、損傷したDNAの修復過程(フリードバーグ、436ページ参照)も支えている。 DNAを修正するツール 細胞内でDNA分子のコピー、切断、結合に機能する酵素は、分子生物学の革命的新技術の主要ツールとして活用され、遺伝子のクローニングやそのタンパク質の発現、染色体上の遺伝子位置を特定するなどの機能を発揮した。 DNA の複製プロセスを実験室で人工的に再現できるようになったことで、生物学を一変させる 2 つの技術が開発されました。1975 年には手動による DNA 配列決定法、1985 年にはポリメラーゼ連鎖反応(PCR)が発見され、DNA 配列を 100 万倍以上に増幅することが可能になりました5。 DNA配列の個人差、いわゆる「多型」の検出は、個人のDNA「フィンガープリント」の基礎となるものです。 法医学では、この指紋を利用して、父子関係や強姦などの刑事事件に対処している。 多くの特定のDNA多型が病気や病気のかかりやすさと関連しているという発見は、DNA診断を医学にもたらし、病気のリスクを症状より先に特定できる、真の予測医学への道を開いた(本号のベルによる記事、414ページを参照)<8773> <9243> 自動DNA配列決定 1970年代にウォルター・ギルバート6とフレッド・サンガー7によって先駆けられた最初のDNA配列決定は、数百個の塩基長のDNA領域を解読するものだった。 1977年から78年にかけて、約5,000塩基のウイルスゲノムの配列が初めて完全に解読されたとき8、DNA配列データから、遺伝子の構造や機能、ゲノムの構成について独自の知見が得られることが明らかになったのです。 Figure 1: DNA の配列決定方法 a, DNA ポリメラーゼは DNA 鎖をコピーします。 これはランダムな出来事で、コピーが止まった塩基によって長さの異なる一連の断片ができる。 c、ターミネーターは異なる蛍光色素で標識されているので、それぞれの断片は、末端がA、C、G、Tのいずれの塩基であるかによって、特定の色で蛍光を発する。 ゲルの1つのレーンの下から上へ読み取られた蛍光バンドに対応する色のピークを持つ、ここに示すような「配列トレース」が生成される。 コンピュータはこれらの蛍光シグナルをDNA配列に変換し、プロットの上部に表示されます。 その後10年間は、技術革新と徹底した自動化が相まって、「ゲノム時代」が到来した。 一連の新しい機器は、生物学的分析への新しいアプローチを可能にした9,10,11。 1986年にLeroy Hood、Lloyd Smith、Mike Hunkapillerによって発明された最初のシーケンサー(参考文献12)は、データ取得は自動化されていたが、依然としてかなりの手作業を必要とし、シーケンスのスピードも1日あたり約250塩基と低レベルであった。 プロトタイプのシークエンシングマシン(1986年)、標準的な研究室で日常的に使用できる堅牢な装置(1989年)、そして最後に、DNAサンプルの調製とシークエンシングがすべて完全に自動化された工場のような統合生産ラインの一部を形成する装置(1998年)であった。 配列決定能力の進歩は目覚しく、最新の配列決定装置は24時間で約150万塩基を解読することができ、これは試作機の6,000倍の処理能力である。 高処理生物学的装置の目標は、処理能力を高め、データの質を向上させ、取得する単位情報あたりのコストを大幅に削減することである。 将来これらの目標を達成するために、連続した手順の小型化、自動化、並列化、統合化により、DNA配列決定技術はマイクロ流体やマイクロエレクトロニクスの領域へ、そして最終的にはナノテクノロジーの領域へと推進されることになる。 DNA1分子シークエンスでは、1万ドル以下のコストで1人の人間の全ゲノムを1日でシークエンスできる時代が来ることが予想される(現在では5000万ドル以上のコストがかかるとされている)。 これによって、地球上のほぼすべての生物のゲノム配列が容易に解読できるようになり、生物学の基礎や人間の遺伝的変異の研究に比類ないアクセスが可能になるのです」 The Human Genome Project 自動DNAシーケンス開発の驚くべき速度は、実現可能性と技術に関する議論と研究が1985年に本格的に開始され1990年に正式に始まったヒトゲノム計画 (HGP) によるスループット需要によって大いに刺激されました。 HGPの目標は15年以内に完成した配列を作成することであったが13、ヒトゲノム配列のドラフトは2001年に利用可能となった。 2001年には、公的資金で運営されている国際ヒトゲノムシーケンスコンソーシアム14と、バイオテクノロジー企業セレラ15による2種類のドラフトが作成・発表されました(Box 1)。 ヒトゲノムの30億塩基の配列を決定し、組み立てることができるツールと方法論を開発する過程で、さまざまな植物、動物、微生物ゲノムの配列が決定され、現在さらに多くのゲノムの解読が進められている。 例えば、過去 10 年間に 100 を超えるバクテリアのゲノム配列が解読され、微生物学という学問は大きく変貌を遂げました。 すなわち、システムのすべての要素(すなわち、完全なゲノム配列と、ゲノムによってコードされるRNAおよびタンパク質の出力全体)を定義し、データベースに保存し、仮説駆動型の科学とグローバルな分析を促進するために利用可能にするという考えである。 第二に、HGPを成功させるために、効率的な大規模DNAシーケンスの開発を推進し、同時に、mRNA、タンパク質、分子間相互作用など、他のタイプの関連する生物学的情報を分析するためのハイスループット・ツール(例えば、DNAアレイや質量分析)の作成を推進しました。 生物学的情報のデジタルな性質 全ゲノム配列の価値は、その生物の情報の正確に定義可能なデジタルコア、つまり完全に定義された遺伝的ソースコードで生物システムの研究を始められることである。 そこで課題となるのは、そのデジタルコードにどのような情報が含まれているかを解読することである。 ゲノムには、生命のタンパク質およびRNA分子機械をコードする遺伝子と、これらの遺伝子が時間、空間、振幅でどのように発現するかを指定する調節ネットワークという、主に2種類のデジタル情報がコード化されています。 ゲノムのデジタル情報は、進化(数千年から数百万年)、発生(数時間から数十年)、生理(ミリ秒から数週間)という3つの多様な時間スパンで動作しています。 発生とは、生物が一つの細胞(受精卵)から成体(ヒトの場合、数千種類、1014個の細胞)になるまで精巧に成長することである。 生理とは、環境からの合図によって特定の機能プログラム(例えば、免疫反応)が引き起こされることである。 転写因子と、転写因子が結合するDNA部位(プロモーター、エンハンサー、サイレンサーなど、遺伝子の制御領域)で構成されているのです。 個々の遺伝子の制御領域は、異なる転写因子の濃度に内在する情報を、遺伝子発現を媒介するシグナルに統合する情報処理装置としての役割を担っている。 特定の発生や生理機能を担う遺伝子の制御領域における転写因子とその同族DNA結合部位の集まりが、この制御ネットワークを構成している(図2)。 図2:ウニの発生に関わる遺伝子制御ネットワーク16. a, 転写因子と他の転写因子の制御領域との相互作用のネットワークの一部である。 遺伝子は横線で示され、矢頭は活性化を、⊥記号は遺伝子の抑制を示す。 b, 内胚葉の発生を調節するのに役立つendo 16と呼ばれる遺伝子のプロモーター領域の拡大図である。 この領域には、13種類の転写因子と補因子(それぞれ長方形またはロリポップで図示)に対する34の結合部位(長方形)がある。 c, ウニの発生過程におけるAおよびBの制御回路の論理構造を示す図である。 酵母、ハエ、ヒトなどのほとんどの「高等」生物または真核生物(核という細胞区画にDNAを含む生物)は、主に同じ遺伝子ファミリーを持つため、ある種と別の種とを区別する発生プログラムの変化を仲介するのは、遺伝子の制御領域におけるDNA結合部位の再編成なのである。 このように、制御ネットワークはDNA結合部位によって一意に特定され、それゆえ、基本的にデジタルな性質を持つ。 デジタル制御ネットワークについて顕著なことは、それらが進化の短期間に大きく変化し得るということである。 これは、たとえば、カンブリア紀の後生動物爆発(約5億5000万年前)において、おそらく1000万年から3000万年の間に出現した、遺伝子制御ネットワークによって制御されるボディプランの巨大な多様性に反映されています。 同様に、約600万年前にチンパンジーとの共通祖先から分岐する過程で、ヒトの脳の発達を促す制御ネットワークに著しい変化が起こった。 生物学は、いくつかの異なるタイプの情報階層を進化させてきた。 まず、制御階層は、一連の転写因子、そのDNA結合部位、下流の周辺遺伝子の関係を定義した遺伝子ネットワークで、集合的に発生の特定の局面を制御するものである。 ウニの発生モデルは、その顕著な例である16 (図2)。 第二に、進化的階層構造は、DNAの複製から生じる一連の関係を定義する。 例えば、1つの遺伝子が重複して複数遺伝子ファミリーを作り、複数遺伝子ファミリーが重複して超遺伝子ファミリーを作ることがある。 第三に、分子機械は秩序ある組み立てプロセスによって構造的階層に組み上げられることがある。 その一例が基本的な転写装置であり、最終的にある遺伝子の特異的な発現を促す因子や酵素が段階的に動員されることになる。 第二の例は、RNAをタンパク質に変換する複合体であるリボソームで、50種類以上のタンパク質と数個のRNA分子から構成されている。 遺伝子→RNA→タンパク質相互作用→タンパク質複合体→細胞内のタンパク質複合体のネットワーク→組織や器官→個体→生態系。 情報階層の各段階において、任意の要素に対して情報を追加または変更することができる(たとえば、代替RNAスプライシングやタンパク質修飾によって)。 この過程では、ゲノムのデジタル情報と、代謝物濃度、他の細胞からの分泌物や細胞表面のシグナル、化学的勾配などの環境情報の2種類の生物学的情報が利用されています。 環境情報には2つのタイプがある。 ランダムな、つまり確率的なシグナルは、生物系に大きなノイズを発生させるが、ノイズがシグナルに変換されるのは特殊な場合のみである。 例えば、抗体の多様性を生み出す遺伝的メカニズムの多くは、確率的な事象に支配されている。 免疫反応において、抗原に強く結合する抗体を産生するB細胞(つまり親和性の高い細胞)は、抗体親和性の強さに比例して数を増やす(本号のNossalの記事、440ページ参照)。 したがって、シグナル(高親和性)とノイズ(低親和性)が区別されるのである。 さらに、B細胞における高レベルの突然変異は、抗原の存在下で抗体遺伝子の特異的な多様化を引き起こし、親和性のさらなる上昇を可能にする。 そして、より親和性の高い抗体遺伝子を持つ細胞が優先的に選択され、生存・増殖するようになる。 確率的事象の解析とシグナルとノイズの区別は、現代の生物学にとって今後の課題であろう。 免疫反応は100年以上研究されているが、免疫反応や寛容(自分の細胞に反応しないこと)など、そのシステム特性はまだ部分的にしか理解されていないのが現状である。 これは、最近まで免疫学者がこの複雑なシステムを一度に1つの遺伝子または1つのタンパク質しか研究できなかったからです。 システムズ・アプローチでは、遺伝(デジタル)または環境摂動に反応するシステム内のすべての要素を研究することができます。 異なるレベルからの生物学的情報のグローバルな定量分析は、それぞれシステムの動作に関する新しい洞察を提供する。したがって、できるだけ多くのレベルの情報を捕らえ、統合し、最終的には数学的にモデル化する必要がある。 そのモデルはシステムの特性を説明し、新しい創発特性を生み出すために合理的な方法でシステムを再設計できるような枠組みを確立する必要がある いくつかのシステムがうまく探索されている。 酵母における糖質ガラクトースの利用は、遺伝的摂動(遺伝子の不活性化)を用いて分析され、RNAやタンパク質の濃度、タンパク質-タンパク質、タンパク質-DNA相互作用など、4段階の情報が収集された17。 反復的かつ統合的なシステムアプローチを用いることで、ガラクトース利用の制御に関する新たな知見を得ることができた。 さらに、ガラクトース制御ネットワークと酵母細胞内の他のモジュールとの関係も明らかにされた。 同様に、ウニの初期胚発生に対するシステムアプローチにより、大きな予測力を持つ制御ネットワークが明らかにされた16 (図2)。 さらに、古細菌であるハロバクテリウム(死海のような最大5モルの塩溶液中で繁栄する生物)の代謝に対するシステムアプローチにより、細胞内のエネルギー生産を制御する複数のモジュールの相互関係に対する新たな知見が得られた18 システムアプローチを用いた細胞および生物学の研究は、まさに始まったばかりである。 生物学者、化学者、コンピュータ科学者、エンジニア、数学者、物理学者など、分野を超えた科学者の統合チームが必要となる。 ハイスループットの生物学的データを取得し、分析するための新たな方法が必要である。 強力な計算インフラを活用して、生物学的複雑性の捕捉、保存、分析、統合、グラフ表示、数学的定式化をより効果的に行う方法を生み出さなければならない。 新しいテクノロジーは互いに統合されなければならない。 最後に、仮説駆動型科学と発見型科学は統合されなければなりません。 つまり、システム生物学的アプローチがその可能性を実現するためには、新しい 科学と技術の両方が出現しなければならないのです。 生物科学の文化的転換が必要であり、次世代の生物学者の教育と訓練には大幅な改革が必要である。 これは30年以上も続いています。 この指数関数的な成長が、情報技術の爆発的な成長の原動力となった。 同様に、科学界が利用できるDNA配列情報の量も、同様の、おそらくさらに急な指数関数的な増加をたどっている。 配列情報をどのように生物に関する知識に変換し、その結果、生物学がどのように変化するかが重要な課題となっています。 私たちは、生物学に対するシステム・アプローチが鍵になると考えています。 しかし、このアプローチには、科学的にも文化的にも大きな課題があること は明らかです19 。 DNA 構造の発見は、私たちをこの旅に向かわせましたが、この旅の終わりには、情報 に基づく新たな生物学観のもとで、生物科学が大きく統合されることになるのでしょう。