タンパク質構造予測精密評価

タンパク質構造予測精密評価（タンパクしつこうぞうよそくせいみつひょうか、Critical Assessment of protein Structure Prediction、略称: CASP）は、1994年から2年ごとに行われているタンパク質構造予測のための世界的な実験である^[1]。CASPは、研究グループに構造予測手法を客観的にテストする機会を提供し、研究コミュニティとソフトウェアユーザーにタンパク質構造モデリングの最新技術の独立した評価を提供する。CASPの主な目的は、アミノ酸配列からタンパク質の三次元構造を特定する方法を進歩させることにあるが、多くの人はこの実験を、この科学分野の「世界選手権」と見なしている。CASPには世界中から100以上の研究グループが定期的に参加しており、サーバーの実験準備と詳細な予測の実行に集中している間は、グループ全体が他の研究を何か月も中断することも珍しくない。

標的タンパク質の選択

予測者が自分に有利になるようなタンパク質の構造に関する事前情報を持たないようにするためには、実験を二重盲検で行うことが重要である。予測者も主催者も評価者も、予測が行われた時点で標的タンパク質の構造を知らない。構造予測の対象となるのは、X線結晶構造解析やNMR分光法で解決されそうな構造、または解析されたばかりの構造 (主に構造ゲノミクスセンターで解決されている) であり、Protein Data Bankで保留されている構造のうちのいずれかである。与えられた配列が、既知の構造を持つタンパク質配列 (テンプレートと呼ばれる) と共通祖先によって関連していることが判明した場合、比較タンパク質モデリング（英語版）を使用して三次構造を予測することができる。テンプレートは、シーケンスアライメント法 (例えば、BLASTやHHsearch（英語版）) またはタンパク質スレッディング法を使用して見つけることができ、これらの方法は、深遠のテンプレートを見つけるのに適している。それ以外の場合は、de novoタンパク質構造予測 (例えば、Rosetta) を適用しなければならず、これは信頼性ははるかに低いものの、時として正しい折り畳みを持つモデルを得ることができる (通常、100-150アミノ酸未満のタンパク質の場合)。真に新しい折り畳みはターゲットの中では非常に稀になってきており^[2]^[3]、このカテゴリーは望ましいものよりも小さくなっている。

評価方法

主な評価方法は^[4]、予測されたモデルのα-炭素の位置を標的構造の位置と比較することである。この比較は、図に示すようなモデルと構造の位置合わせにおける等価なα-炭素のペア間の距離の累積プロットによって視覚的に示され (完全なモデルは、すべての方法でゼロのままになる)、標的に対するモデル内の良好にモデル化された残基のパーセンテージを記述する数値スコア GDT-TS (グローバル距離テスト、Global Distance Test - Total Score) が割り当てられる^[5]。数値スコアは最も困難なケースでの緩い類似性を見つけるのにはうまく機能しないため、自由モデリング (テンプレートなし、またはde novo) は評価者によって視覚的にも評価される^[6]。CASP7では、テンプレートを用いた高精度な予測が、標的結晶構造の分子置換相転移^[7]に成功したかどうか評価され^[8]、CASP8では、フルモデル (α-炭素だけではない) のモデル品質と標的へのフルモデルの一致度で評価された^[9]。

結果の評価は、次の予測カテゴリで実行される。

三次構造予測 (すべてのCASP)
二次構造予測 (CASP5以降は削除)
複合構造体の予測 (CASP2、CASP12以降はCAPRIと合同で開催している)
残基-残基接触予測 (CASP4以降)
無秩序領域予測 (CASP5以降)
ドメイン境界予測 (CASP6-CASP8)
機能 (英語版) 予測 (CAPS6以降)
モデル品質評価 (CASP7以降)
モデル改良 (CASP7以降)
高精度テンプレートベースの予測 (CASP7以降)

三次構造予測カテゴリは、さらに次のように細分化された。

ホモロジーモデリング（英語版）
折り畳み認識 (タンパク質スレッディングとも呼ばれる。スレッディングは予測方法であるため、これは正しくない)
de novo 構造予測は、多くの方法が評価や、スコアリングや、または人工ニューラルネットワークなどの天然タンパク質の構造に関する知識によって偏りのある関数を適用するため、現在では「新しい折り畳み」と呼ばれている。

CASP7以降、予測方法の開発を反映するためにカテゴリが再定義された。

「テンプレートベースのモデリング」カテゴリーには、従来のすべての比較モデリング、相同折り畳みベースのモデル、およびいくつかの類似折り畳みベースのモデルが含まれている。
「テンプレートフリーモデリング(FM)」カテゴリーには、初見の折り畳みを持つタンパク質のモデルと、困難な類似折り畳みベースのモデルが含まれる。
テンプレートなしのターゲットの数が限られている (非常に稀なものである) ため、2011年には、いわゆるCASP ROLLが導入された。この継続的 (回転) CASP実験は、通常のCASP予測シーズン以外でも、より多くのターゲットを評価することで、テンプレートなしの予測方法をより厳密に評価することを目的としている。LiveBench（英語版）やEVA（英語版）とは異なり、この実験はCASPの盲検予測の精神に基づいており、全ての予測は未知の構造を用いて行われる。

CASPの結果は、科学雑誌 Proteins の特別付録号に掲載されており、CASPウェブサイトからアクセスできる^[10]。これらの各付録の巻頭記事では実験の詳細を説明し^[11]^[12]、巻末記事ではその分野の進捗状況を評価している^[13]^[14]。

CASP13

2018年12月、CASP13は、DeepMindによって制作された人工知能プログラム「AlphaFold」が優勝したときに話題になった^[15]。

CASP14

2020年11月、改良されたAlphaFoldバージョン2がCASP14で優勝し^[16]^[17]、予測精度は100点満点で90点近いスコアを獲得した^[18]。

参考文献

^ Moult, J. (1995). “A large-scale experiment to assess protein structure prediction methods”. Proteins 23 (3): ii–iv. doi:10.1002/prot.340230303. PMID 8710822. https://zenodo.org/record/1229334.
^ Tress, M. (2009). “Target domain definition and classification in CASP8”. Proteins 77 (Suppl 9): 10–17. doi:10.1002/prot.22497. PMC 2805415. PMID 19603487.
^ “The protein structure prediction problem could be solved using the current PDB library”. Proc Natl Acad Sci USA 102 (4): 1029–1034. (2005). Bibcode: 2005PNAS..102.1029Z. doi:10.1073/pnas.0407152101. PMC 545829. PMID 15653774.
^ Cozzetto, D. (2009). “Evaluation of template-based models in CASP8 with standard measures”. Proteins 77 (Suppl 9): 18–28. doi:10.1002/prot.22561. PMC 4589151. PMID 19731382.
^ Zemla A (2003). “LGA: A method for finding 3D similarities in protein structures”. Nucleic Acids Research 31 (13): 3370–3374. doi:10.1093/nar/gkg571. PMC 168977. PMID 12824330.
^ Ben-David, M. (2009). “Assessment of CASP8 structure predictions for template free targets”. Proteins 77 (Suppl 9): 50–65. doi:10.1002/prot.22591. PMID 19774550.
^ Read, R.J.; Chavali, G. (2007). “Assessment of CASP7 predictions in the high accuracy template-based modeling category”. Proteins: Structure, Function, and Bioinformatics 69 (Suppl 8): 27–37. doi:10.1002/prot.21662. PMID 17894351.
^ Qian, B. (2007). “High-resolution structure prediction and the crystallographic phase problem”. Nature 450 (7167): 259–264. Bibcode: 2007Natur.450..259Q. doi:10.1038/nature06249. PMC 2504711. PMID 17934447.
^ Keedy, D.A.; Williams, CJ; Headd, JJ; Arendall, WB; Chen, VB; Kapral, GJ; Gillespie, RA; Block, JN et al. (2009). “The other 90% of the protein: Assessment beyond the α-carbon for CASP8 template-based and high-accuracy models”. Proteins 77 (Suppl 9): 29–49. doi:10.1002/prot.22551. PMC 2877634. PMID 19731372.
^ “CASP Proceedings”. 2020年12月5日閲覧。
^ Moult, J. (2007). “Critical assessment of methods of protein structure prediction — Round VII”. Proteins 69 (Suppl 8): 3–9. doi:10.1002/prot.21767. PMC 2653632. PMID 17918729.
^ Moult, J. (2009). “Critical assessment of methods of protein structure prediction — Round VIII”. Proteins 77 (Suppl 9): 1–4. doi:10.1002/prot.22589. PMID 19774620.
^ Kryshtafovych, A. (2007). “Progress from CASP6 to CASP7”. Proteins: Structure, Function, and Bioinformatics 69 (Suppl 8): 194–207. doi:10.1002/prot.21769. PMID 17918728.
^ Kryshtafovych, A. (2009). “CASP8 results in context of previous experiments”. Proteins 77 (Suppl 9): 217–228. doi:10.1002/prot.22562. PMC 5479686. PMID 19722266.
^ Sample, Ian (2 December 2018). “Google's DeepMind predicts 3D shapes of proteins”. The Guardian 19 July 2019閲覧。
^ “AlphaFold: a solution to a 50-year-old grand challenge in biology”. Deepmind. 30 November 2020閲覧。
^ “DeepMind’s protein-folding AI has solved a 50-year-old grand challenge of biology” (英語). MIT Technology Review. 30 November 2020閲覧。
^ ‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures

外部リンク

結果ランキング

CASP14自動評価（2020）

CASP13自動評価（2018）

CASP12自動評価（2016）

CASP11自動評価（2014）

CASP10自動評価（2012）

CASP9自動評価（2010）

CASP8自動評価（2008）

CASP7自動評価（2006）

[1] Moult, J. (1995). “A large-scale experiment to assess protein structure prediction methods”. Proteins 23 (3): ii–iv. doi:10.1002/prot.340230303. PMID 8710822. https://zenodo.org/record/1229334.

[2] Tress, M. (2009). “Target domain definition and classification in CASP8”. Proteins 77 (Suppl 9): 10–17. doi:10.1002/prot.22497. PMC 2805415. PMID 19603487.

[zhang2005-3] “The protein structure prediction problem could be solved using the current PDB library”. Proc Natl Acad Sci USA 102 (4): 1029–1034. (2005). Bibcode: 2005PNAS..102.1029Z. doi:10.1073/pnas.0407152101. PMC 545829. PMID 15653774.

[4] Cozzetto, D. (2009). “Evaluation of template-based models in CASP8 with standard measures”. Proteins 77 (Suppl 9): 18–28. doi:10.1002/prot.22561. PMC 4589151. PMID 19731382.

[Zemla2003-5] Zemla A (2003). “LGA: A method for finding 3D similarities in protein structures”. Nucleic Acids Research 31 (13): 3370–3374. doi:10.1093/nar/gkg571. PMC 168977. PMID 12824330.

[6] Ben-David, M. (2009). “Assessment of CASP8 structure predictions for template free targets”. Proteins 77 (Suppl 9): 50–65. doi:10.1002/prot.22591. PMID 19774550.

[7] Read, R.J.; Chavali, G. (2007). “Assessment of CASP7 predictions in the high accuracy template-based modeling category”. Proteins: Structure, Function, and Bioinformatics 69 (Suppl 8): 27–37. doi:10.1002/prot.21662. PMID 17894351.

[8] Qian, B. (2007). “High-resolution structure prediction and the crystallographic phase problem”. Nature 450 (7167): 259–264. Bibcode: 2007Natur.450..259Q. doi:10.1038/nature06249. PMC 2504711. PMID 17934447.

[9] Keedy, D.A.; Williams, CJ; Headd, JJ; Arendall, WB; Chen, VB; Kapral, GJ; Gillespie, RA; Block, JN et al. (2009). “The other 90% of the protein: Assessment beyond the α-carbon for CASP8 template-based and high-accuracy models”. Proteins 77 (Suppl 9): 29–49. doi:10.1002/prot.22551. PMC 2877634. PMID 19731372.

[10] “CASP Proceedings”. 2020年12月5日閲覧。

[11] Moult, J. (2007). “Critical assessment of methods of protein structure prediction — Round VII”. Proteins 69 (Suppl 8): 3–9. doi:10.1002/prot.21767. PMC 2653632. PMID 17918729.

[12] Moult, J. (2009). “Critical assessment of methods of protein structure prediction — Round VIII”. Proteins 77 (Suppl 9): 1–4. doi:10.1002/prot.22589. PMID 19774620.

[13] Kryshtafovych, A. (2007). “Progress from CASP6 to CASP7”. Proteins: Structure, Function, and Bioinformatics 69 (Suppl 8): 194–207. doi:10.1002/prot.21769. PMID 17918728.

[14] Kryshtafovych, A. (2009). “CASP8 results in context of previous experiments”. Proteins 77 (Suppl 9): 217–228. doi:10.1002/prot.22562. PMC 5479686. PMID 19722266.

[15] Sample, Ian (2 December 2018). “Google's DeepMind predicts 3D shapes of proteins”. The Guardian 19 July 2019閲覧。

[16] “AlphaFold: a solution to a 50-year-old grand challenge in biology”. Deepmind. 30 November 2020閲覧。

[17] “DeepMind’s protein-folding AI has solved a 50-year-old grand challenge of biology” (英語). MIT Technology Review. 30 November 2020閲覧。

[18] ‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]