教養学部報
第660号
タンパク質は言語である~2024年ノーベル化学賞
季高駿士・新井宗仁
二〇二四年のノーベル化学賞は、ワシントン大学のデイヴィッド・ベイカー氏と、グーグル・ディープマインド社のデミス・ハサビス氏、ジョン・ジャンパー氏の三名に授与された。ベイカー氏は計算機を用いて天然にない新しいタンパク質をゼロから設計し、ハサビス氏とジャンパー氏はタンパク質の形を高精度で予測できるツール「アルファフォールド2(AF2)」を開発した。これらの成果は今後、医療や産業に大きく貢献するだろう。また、AF2の開発は、「タンパク質が言語である」ことを再認識させた。本稿では言語とのアナロジーから受賞研究を概説したい。
ヒトが持つタンパク質は約二万種類あり、我々の体をつくるだけでなく、酵素や抗体などのように多様に働き、生命現象を駆動する。また、タンパク質の異常は疾患を引き起こすため、タンパク質研究は医療と直結する。体内のどこで、いつ、どんなタンパク質を作ればよいのかに関する情報は、ゲノム(DNA)という「二万ページの設計図」に書かれている。その設計図は、ATGCという四種類の文字(塩基)だけを使った総計三十億文字の暗号だ。また、この設計図をもとに作られるタンパク質は、DNAとは異なる二十種類の文字(アミノ酸)が平均約三百個並んだ文字列である。DNAという四文字の言語を、タンパク質という二十文字の言語にどのようにして翻訳するのか。これが第一の遺伝暗号解読問題であり、DNAの文字三つ(コドン)をタンパク質の文字一つに置き換えることで解読された。
こうして作られたタンパク質は、約三百個のアミノ酸がつながったひも(三百文字の文)であるが、体内で働くためには、そのひもをらせん状やひだ状に折りたたみ、特定の形をつくる必要がある。その形は、アミノ酸の並び方(アミノ酸配列)によって決まる。言い換えると、タンパク質の形は、タンパク質という「文」の意味に相当する。そのタンパク質の形、すなわち、タンパク質という言語の意味を解読することが第二の遺伝暗号解読問題であり、数十年来の難問だった。
タンパク質の形を予測したときの正解率は、以前は四割程度だったが、二〇一八年に発表されたAF1で約六割に向上した。そして二〇二〇年にAF2が登場し、約九割という驚異的な正解率を叩き出した。その予測精度は実験誤差と同程度であり、第二の遺伝暗号解読問題は「ほぼ解けた」といえる。
では、なぜAF2はこれを実現できたのか。AF2は、予測したいアミノ酸配列(文)と類似したアミノ酸配列(文)をデータベースから大量に検索し、並べて比較する。一般に、進化的に遠い生物どうしのアミノ酸配列(文字列)を比べると、いくつかの部位が異なる。変化しても文の意味が変わらない文字はランダムに変化しうるのに対し、進化の過程で二つの文字が常に同時に、ペアになって変化する部位がある。この二つの文字は密接に関係して文の意味を決めるのだろう。つまり、タンパク質が形をつくるときに、この二つのアミノ酸は接触していると推測される。このようなアミノ酸ペアを多く集めれば、タンパク質の全体的な形を予測しうる。言い換えると、似ている文をたくさん比べれば文法や文の意味を解明する手がかりが得られる。この考え方は二〇一〇年頃には存在していたが、当時はまだ予測の正解率は低かった。
この問題を解決したのは、自然言語翻訳などに用いられる深層学習の技法「トランスフォーマー」である。この技法は二〇一七年にグーグルの研究者らが開発した。AF1で使われた深層学習の技法では、文字列上近くの情報が重視されたが、トランスフォーマーでは日本語の主語や述語のように離れた位置にある文字の関係を調べられる。タンパク質の場合にも、配列上離れたアミノ酸どうしがペアとなることも多い。この技法を用い、世界中の研究者が何十年もかけて集めた二二億のアミノ酸配列と一七万のタンパク質構造のビッグデータを学習することで完成したのが、英知の集大成としてのAF2である。
ただし、AF2にも解けない問題がある。その一つは、タンパク質が特定の形をつくる過程の解明である。我々の研究室では最近、その過程を正確に予測する物理学理論を構築した(教養学部報第六五三号)。また、タンパク質どうしの結合(二つの文の関係)の予測も苦手だったが、昨年公開されたAF3で改善された。他にもまだ残された課題はある。
単語の使用頻度に関するジップの法則がタンパク質にも成り立つことは知られていたが、言語と同様のアプローチでタンパク質の暗号を解読できたことは、タンパク質がまさに言語であること、ひいては遺伝暗号が言語であることを裏付けている。
タンパク質は言語的な性質を持つと同時に、実体としての形を持つ。逆に、自然言語や音楽などをタンパク質と同様に扱い、立体的な形を考えるとどうなるだろうか。そこから生まれる芸術や、学問的な新発見があるかもしれない。
さて、タンパク質の文法がわかれば、タンパク質という文を自在に生み出せるだろう。つまり、医療や産業に役立つさまざまな形のタンパク質をデザインできる。その先駆的な研究を行ったのがベイカー氏である。彼らは二〇〇〇年頃に「ロゼッタ」という物理学ベースのソフトウェアを開発し、天然にない新しい形をもつタンパク質の理論的設計に成功した。これがブレイクスルーとなり、新規酵素や新規抗体、サッカーボールに似た巨大タンパク質などが次々と設計された。また新型コロナウイルスに対する創薬にも使われた。この技術をもとに作られた会社は二〇社を超える。
ノーベル賞研究の延長線上に次のノーベル賞があると言われる。ベイカー氏は最近、深層学習ベースの設計法を次々と開発し、タンパク質デザインを飛躍的に容易にした。この業績は今回の受賞理由に含まれておらず、ベイカー氏はいずれ二度目の受賞をするかもしれない。また、社会にインパクトを与えるタンパク質をデザインできれば、我々にも共同受賞のチャンスはあるはずだ。
二一世紀は生命科学の時代であると同時に情報科学の時代でもある。それらの融合分野こそが最先端であり、今後もそれは変わらないだろう。教養学部では、多様性を重んじる自由な雰囲気の中で、分野横断的な最先端研究が行われている。このような研究に興味がある学生は、ぜひ教養学部に進学してほしい。
(生命環境科学/物理)
無断での転載、転用、複写を禁じます。