クリアファイル、化学賞

クリアファイルに書類を入れていつも持ち歩いているが、いつの間にか紙がクリアファイルからはみ出して端っこがぼろぼろになる。A4きつきつサイズの鞄を使っているせいなのか、振動でだんだん紙がクリアファイルから飛び出すらしい。紙がクリアファイルに収まっている状態よりもはみ出している状態の方がエネルギー準位が低いのだろうか。ランダムに振動するなら、紙のはみ出しが増える方向にも減る方向にも等確率で遷移しそうなものだが、そうではないらしい。

汚らしいなぁと長年思いながら使っていたが、クリアファイルに紙を入れた状態で、別のクリアファイルをもう一つ、180度回転させた状態でかぶせてやればいいことに気づいた。なぜもっと早く思い付かなかったんだろう。

全く関係ないが、化学賞はまさかの機械学習が受賞(再)。計算機科学じゃん(再)。

たんぱく質はいろんな種類のアミノ酸が数珠つなぎになった構造だが、ただの鎖ではなく、特定の位置で折れ曲がり、全体が特定の3次元構造を取る。この構造に特定の分子だけがうまくはまり込む、といったことでたんぱく質のいろんな機能が実現されている。生物の体内で起こっている化学反応はだいたい全部これ。

だが、アミノ酸の配列がすべて分かっても、そのたんぱく質がどこでどんな風に折れ曲がってどんな3次元構造をとるかを予測するのは大変むずかしかった。もしこれを簡単に求めることができれば、新薬の開発とか生命機能の解明とかが超楽になる。このたんぱく質の folding の問題を計算機で解く方法を確立したのが今回の受賞者3人。

賞金の 1/2 を獲得した Baker は Rosetta というプログラムを開発し、望みの立体構造を持つ(自然界に存在しない)たんぱく質のアミノ酸配列を求めて実際にこれを作ることに成功した。

あとの2人は DeepMind という会社で、例の囲碁 AI「AlphaGo」とかを開発し、さらに Transformer というしくみを使った AlphaFold2 というAIプログラムを開発して、たんぱく質のきわめて精度の良い構造予測を可能にした。

Transformer はもともと機械翻訳とか文章の生成とかをおこなう大規模言語モデル (LLM) に使われていたが、その肝は「注意機構 (attention)」というやつで、単語列の中で「この単語とこの単語が意味的に強く結びつく」という重み付け処理を機械学習のシステムに組み込んで、ある種の文脈理解能力を実現したもの。これによってAIが飛躍的に賢くなったのはご存じの通り。ChatGPT とかは全部これを使っている。

たんぱく質が立体構造を取るときも、アミノ酸の鎖の中で「このアミノ酸とこのアミノ酸は引き合いやすい」というような、「アミノ酸の文脈」とも呼べるような要素が構造を作る上でカギになる。そこで、Transformer 入りのニューラルネットを使ってアミノ酸配列から正しい立体構造を求められるように学習させたのが AlphaFold2 で、これが大変に成功した、ということらしい。