タンパク質は生物の活動を維持するために不可欠な要素です。細胞の修復、老廃物の除去、体の端から端への伝達を助けます。 科学者の間ではタンパク質の構造と機能を解明するための研究が盛んに行われており、この目的のために、Meta の AI 研究チームは本日、アミノ酸配列に基づいてタンパク質の 3D 構造を予測できるモデルを使用したことを発表しました。DeepMind などのこの分野でのこれまでの研究とは異なり、Meta の AI は形状と配列のマッチング アルゴリズムではなく、言語学習モデルに基づいています。Meta はこの研究に関するプレプリント論文を公開するだけでなく、モデルとタンパク質のデータベースの両方を研究コミュニティと業界に公開する予定です。 まず、タンパク質の形状を理解することの重要性を説明するために、簡単な生物学のレッスンを紹介します。遺伝子の特定のヌクレオチドのトリプレット配列は、細胞内のリボソームと呼ばれる分子によってアミノ酸に変換されます。タンパク質は、独自の形状と構成に自己分類されたアミノ酸の鎖です。メタゲノミクスと呼ばれる新しい科学分野では、遺伝子配列を使用して自然界の新しいタンパク質を発見、カタログ化、注釈付けしています。 Meta の AI モデルは、大規模言語モデルにヒントを得た新しいタンパク質折り畳みアプローチであり、メタゲノミクス データベース内の何億ものタンパク質配列の構造を予測することを目的としています。これらのタンパク質が形成する形状を理解することで、研究者はタンパク質がどのように機能し、どの分子と相互作用するかについての手がかりを得ることができます。 [関連: Meta は新しい AI ツールで Wikipedia の精度を高めることができると考えている] 「メタゲノミクスタンパク質の初めての大規模な特性評価を作成しました。タンパク質構造の予測が 6 億件以上あるデータベースをオープン サイエンス リソースとして公開します」と Meta AI の研究科学者アレックス リヴス氏は言います。「これは、世の中で最も理解されていないタンパク質のいくつかをカバーしています。」 歴史的に、計算生物学者は進化のパターンを利用してタンパク質の構造を予測してきました。タンパク質は、折り畳まれる前は、アミノ酸の線状鎖です。タンパク質が複雑な構造に折り畳まれると、線状鎖では離れているように見える特定の配列が、突然互いに非常に近くなる可能性があります。 「これは、パズルの 2 つのピースが合わさってできていると考えることができます。進化は、これらの 2 つの位置を独立して選択することはできません。間違ったピースがここにあると、構造が崩れてしまうからです」と Rives 氏は言います。「つまり、タンパク質配列のパターンを見ると、配列内の異なる位置が互いに共変するため、折り畳まれた構造に関する情報が含まれているということです。これは、タンパク質の根本的な生物学的特性に関する何かを反映することになります。」 一方、2018年に初めて登場したディープマインドの革新的なアプローチは、主に多重配列アライメントと呼ばれる手法に依存している。基本的には、タンパク質配列の大規模な進化データベースを検索し、予測対象のタンパク質に関連するタンパク質を見つける。 「私たちのアプローチが他と違うのは、複数の関連タンパク質のセットから予測してパターンを見るのではなく、アミノ酸配列から直接予測を行っていることです」と Rives 氏は言います。「言語モデルはこれらのパターンを別の方法で学習しました。つまり、この配列セットを処理する必要がなく、関連配列を検索する必要がないため、構造予測アーキテクチャを大幅に簡素化できるということです。」 これらの要素により、この分野の他の技術と比較して、彼らのモデルはより高速になる、とリヴス氏は主張する。 [関連: Meta は人間の脳を研究することで AI を改良したいと考えている] このモデルをこのタスクを実行できるようにどのようにトレーニングしたのでしょうか。2 つのステップを踏みました。まず、構造が異なり、さまざまなタンパク質ファミリーに属し、進化のタイムライン全体にわたって得られた多数のタンパク質で言語モデルを事前トレーニングする必要がありました。彼らはマスク言語モデルのバージョンを使用し、アミノ酸配列の一部を空白にして、その空白を埋めるようにアルゴリズムに指示しました。「言語トレーニングは教師なし学習で、配列のみでトレーニングされます」と Rives 氏は説明します。「これを行うと、このモデルは数百万のタンパク質配列にわたってパターンを学習します。」 次に、言語モデルをフリーズし、その上でフォールディング モジュールをトレーニングしました。トレーニングの第 2 段階では、教師あり学習を使用します。教師あり学習データセットは、世界中の研究者が提出したタンパク質データバンクの構造のセットで構成されています。次に、AlphaFold (DeepMind のテクノロジー) を使用して作成された予測で補強されます。「このフォールディング モジュールは、言語モデルの入力を受け取り、基本的にタンパク質の 3D 原子座標を [アミノ酸配列から] 出力します」と Rives 氏は言います。「これにより、これらの表現が生成され、フォールディング ヘッドを使用して構造に投影されます。」 リヴス氏は、このモデルは、タンパク質の活性部位の機能を生化学レベルで理解するなどの研究用途に使用できると考えています。これは、新薬の開発や発見に非常に役立つ情報です。また、将来的には、この AI を使って新しいタンパク質を設計できるとも考えています。 |
<<: 今週末は流星群とハンターズムーンが夜空を照らすだろう
>>: レモン汁をもっと搾る方法と、電子レンジを使った8つの天才的な裏ワザ
ほとんどの魚は冷血動物で、つまり体外の温度に頼って体温を調節する。しかし、意外にも一部のサメは温血動...
「ドラゴンの鼻くそ」にはさまざまな名前があります。たとえば「コケ動物」や「コケムシ」などです。また、...
2004 年以来、毎年 12 月になると、エンジニアたちは南極に飛び、氷に 8,000 フィートの深...
[2016 年 1 月 7 日更新] MIT 博物館がサイトで回答しました。以下に貼り付けておきま...
運転中に最も楽しくない瞬間は、太陽光がちょうどいい角度でフロントガラスに差し込むときです。周囲の世界...
イギリスのイースト・サセックス沿岸のベクスヒル・オン・シー地域で、ティラノサウルスの鋭い歯が初めて発...
新たな研究によると、アフガニスタンのタクル・ガールの戦いで、宇宙天気の一種であるプラズマバブルによる...
アメリカ人の4人に1人はタトゥーを入れていると推定されているが、そのほとんどが何らかの形で肉眼で見え...
本日の悲しいニュース: レナード・ニモイが 83 歳で亡くなりました。ニモイは俳優、詩人、ホビットの...
以下は、パトリック・ジョンソン著『スター・ウォーズの物理学: はるか遠くの銀河の背後にある科学』から...
物理学の教科書を今すぐに捨てるのはやめてください。しかし、今日 CERN では、標準モデルの大部分を...
エリオ・モリロ著『星に手を伸ばした少年:回想録』からの抜粋。HarperOne 発行。著作権 © 2...
宇宙にはアングリーバードがすでにいるのに、フルーツニンジャが宇宙にいないのはなぜでしょうか。少なくと...
氷河は壮大な自然の構造物で、数マイルにわたって広がり、厚さは数ヤードから数千フィートに及ぶ密集した氷...
これをテストする方法は 2 つあるが、どちらも現実的ではない。1 つは、大型ハドロン衝突型加速器の数...