MITの化学工学研究者らが、タンパク質ベースの医薬品製造を効率化する大規模言語モデル(LLM)を開発しました。このモデルにより、バイオ医薬品の開発・製造コストの15〜20%を占める開発プロセスを大幅に短縮できる可能性があります。
研究チームが開発したエンコーダー・デコーダーモデルは、産業用酵母「Komagataella phaffii」から約5,000種類の天然タンパク質のDNAコドン配列を学習しています。コドンとはアミノ酸をコードする3文字のDNA配列で、モデルはこれらのコドンの使用パターンを解析し、特定のタンパク質を製造するための最適なコドンの組み合わせを予測します。重要なのは、モデルが隣接するコドンだけでなく、離れた位置にあるコドン間の関係性も考慮している点です。
研究チームは、ヒト成長ホルモン、ヒト血清アルブミン、がん治療用モノクローナル抗体のトラスツズマブ(ハーセプチン)など6種類のタンパク質でテストを実施しました。その結果、MITのモデルは6種中5種で最も優れた配列を生成し、残り1種でも2位となり、4種類の市販コドン最適化ツールを上回る性能を示しました。X上では「AlphaFold以降の次のステップ。構造予測から相互作用予測への進化」と評価されていますが、Redditのr/MachineLearningでは「実験検証結果待ち」「in silico予測の限界を指摘」する慎重な声も見られます。
本研究は、シニア著者のJ. Christopher Love教授(化学工学Raymond A. and Helen E. St. Laurent教授)と、筆頭著者で元MIT博士研究員のHarini Narayanan氏らによって行われ、2026年2月にProceedings of the National Academy of Sciencesに掲載されました。