はじめに
キシダ化学さんが提供しているバーチャルライブラリの一部の化合物についてCGBVS法によるプロファイリングをやってみました。このバーチャルライブラリーはキシダ化学さんが扱っているビルディングブロックを組み合わせて合成できるもので、2成分系と3成分系の2種類があります。2成分系の方は化合物数が800万個以上と多く合成の工程数も小さく比較的安価だそうです。3成分系は2成分系より工程数が大きくなり価格も高くなるが、立体的で面白い化合物が多いとのことです。特にPPI阻害剤を志向した設計になっているようです。こちらの3成分系のバーチャル化合物数が32万個程度と、CGBVS法にとって丁度よかったので計算してみました。
CGBVS法については以下の論文を参照してください。
- YABUUCHI, Hiroaki, et al. Analysis of multiple compound–protein interactions reveals novel bioactive molecules. Molecular systems biology, 2011, 7.1: 472.
- KANAI, Chisato, et al. Computational Prediction of Compound–Protein Interactions for Orphan Targets Using CGBVS. Molecules, 2021, 26.17: 5131.
CGBVSの特徴の一つに複数タンパク質に対する化合物の結合予測を一度に評価できることがあります。現在はChEMBL30のデータを基にしてモデルを作成しており、9種類のモデルで合計1595タンパク質に対して結合予測することが可能です。今回は3成分系のバーチャル化合物32万個を1595タンパク質に対して結合予測スコアをCGBVS法にて評価した結果を紹介します。
計算方法
CGBVS法は設定された活性基準で活性有り無しの2クラスにデータを分けて、2クラス分類の機械学習(SVM)を利用して活性予測する計算方法です。詳しくは前述の論文を参照してください。
計算対象はキシダ化学の3成分系のバーチャル化合物で、化合物数が324,322個です。計算方法は我々が販売しているソフトのCzeekSを利用して、以下の9種類のモデルを利用して1595タンパク質に対して計算をしました。活性基準値は30uMで、IC50等が30uM以下であれば活性有りとしています。CGBVSのスコアは0~1までの値を取り、化合物とタンパク質の組み合わせが活性を持つ確率値の様な意味を持ちます。注意すべきはスコアと活性値(IC50等)には相関は無く、スコアが1に近くても必ずしも活性が強いと予測しているわけではありません。
| モデル | タンパク質数 | 学習データ | 
|---|---|---|
| Cytochrome P450 | 39 | 42,654 | 
| Esterase | 171 | 106,874 | 
| GPCR | 259 | 186,930 | 
| Ion channel | 180 | 58,348 | 
| Kinase | 495 | 200,000 | 
| Nuclear receptor | 42 | 37,529 | 
| PPI | 53 | 42,215 | 
| Protease | 235 | 108,502 | 
| Transporter | 121 | 44,405 | 
CGBVSプロファイリング結果
化合物が約32万個でタンパク質が約1600個なので、計算結果のデータポイント数としてはそれらの積である5.12億程あります。データ数が多すぎるので、計算結果の大まかな様子を確認するためにヒートマップにまとめてみました。先ずはデータ全体の様子は以下の図のようになりました。

縦軸の化合物については32万個をk-means法によって50個のクラスターに分けています。化合物グループ名はC0~C49まであります。横軸のタンパク質についてはモデル毎のタンパク質グループでまとめています。各升目の色はスコアの平均値に応じて色付けしています。3成分系のキシダ化学バーチャルライブラリーはPPI阻害剤を志向した設計とのことですが、確かにPPIについてはスコアが高めに出ているように見えます。特にC48グループの化合物がPPI阻害剤に良いような気がします。
もう少し詳しくモデル(タンパク質グループ)毎のヒートマップを以下に9種類示していきます。縦軸は化合物グループ(C0~C49)を示していて、横軸はタンパク質をクラスタリングしたものを示しております。タンパク質についてもk-means法によりクラスタリングしていて、各タンパク質グループ毎に行いました。クラスタリングした結果をエクセルファイルまとめておりますので、詳しくはこちらのファイルを参照してください。
Cytochrome P450 (CYP)

タンパク質グループのP1に対して特にスコアが高い傾向があります。P1は実はシングルトンで、そのタンパク質はCYP3A4です。あと主だったCYPに1A2, 2C9, 2C19, 2D6がありますが、これらもシングルトンでした。以下にまとめます。
| グループ | タンパク質 | 
|---|---|
| P8 | CYP1A2 | 
| P5 | CYP2C9 | 
| P2 | CYP2C19 | 
| P3 | CYP2D6 | 
| P1 | CYP3A4 | 
この図を見るとC17やC16に属する化合物群はCYPに対してスコアが高いので、この中から化合物選択する場合は注意深く見る必要があるかもしれません。
Esterase

シングルトンのタンパク質グループのみ以下の表に示します。
| グループ | タンパク質 | 
|---|---|
| P3 | Tyrosyl-DNA phosphodiesterase 1 | 
| P4 | cAMP and cAMP-inhibited cGMP 3′,5′-cyclic phosphodiesterase 10A | 
| P6 | DNA-(apurinic or apyrimidinic site) endonuclease | 
| P10 | Ectonucleotide pyrophosphatase/phosphodiesterase family member 2 | 
| P11 | Monoglyceride lipase | 
| P13 | cAMP-specific 3′,5′-cyclic phosphodiesterase 4B | 
| P17 | Flap endonuclease 1 | 
GPCR

シングルトンのタンパク質グループのみ以下の表に示します。
| グループ | タンパク質 | 
|---|---|
| P10 | Glucagon-like peptide 1 receptor | 
| P11 | Calcitonin gene-related peptide type 1 receptor | 
| P22 | C-C chemokine receptor type 2 | 
| P23 | Neuropeptide S receptor | 
| P25 | C-X-C chemokine receptor type 3 | 
| P26 | B1 bradykinin receptor | 
| P3 | C-C chemokine receptor type 5 | 
| P4 | Melanin-concentrating hormone receptor 1 | 
| P7 | Glucose-dependent insulinotropic receptor | 
Ion channel

シングルトンのタンパク質グループのみ以下の表に示します。
| グループ | タンパク質 | 
|---|---|
| P1 | P2X purinoceptor 7 | 
| P10 | 5-hydroxytryptamine receptor 3A | 
| P12 | P2X purinoceptor 3 | 
| P16 | Cystic fibrosis transmembrane conductance regulator | 
| P17 | Voltage-dependent N-type calcium channel subunit alpha-1B | 
| P2 | Potassium voltage-gated channel subfamily H member 2 (hERG) | 
| P4 | Transient receptor potential cation channel subfamily V member 4 | 
| P5 | Voltage-dependent T-type calcium channel subunit alpha-1H | 
| P6 | Sodium channel protein type 9 subunit alpha | 
| P7 | Voltage-dependent T-type calcium channel subunit alpha-1G | 
| P9 | Transient receptor potential cation channel subfamily V member 1 | 
この図を見るとC17に属する化合物群はP2グループ(hERG)に対してスコアが高いので、
この中から化合物選択する場合はCYPと同様に注意深く見る必要があるかもしれません。
Kinase

シングルトンのタンパク質グループのみ以下の表に示します。
| グループ | タンパク質 | 
|---|---|
| P10 | Serine/threonine-protein kinase mTOR | 
| P13 | Mitogen-activated protein kinase 1 | 
| P19 | Insulin-like growth factor 1 receptor | 
| P21 | Non-receptor tyrosine-protein kinase TYK2 | 
| P23 | Mast/stem cell growth factor receptor Kit | 
| P26 | Mitogen-activated protein kinase 14 | 
| P3 | High affinity nerve growth factor receptor | 
| P31 | Mitogen-activated protein kinase 3 | 
| P32 | Insulin receptor | 
| P33 | Tyrosine-protein kinase BTK | 
| P38 | Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform | 
| P39 | Epidermal growth factor receptor | 
| P4 | Mitogen-activated protein kinase 11 | 
| P41 | Macrophage colony-stimulating factor 1 receptor | 
| P42 | Hexokinase-4 | 
| P43 | ALK tyrosine kinase receptor | 
| P44 | Dual specificity protein kinase TTK | 
| P45 | Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit beta isoform | 
| P49 | Cyclin-dependent kinase 9 | 
Nuclear receptor

シングルトンのタンパク質グループのみ以下の表に示します。
| グループ | タンパク質 | 
|---|---|
| P2 | Nuclear receptor ROR-gamma | 
| P3 | Bile acid receptor | 
| P7 | Thyroid hormone receptor beta | 
| P9 | Glucocorticoid receptor | 
PPI

シングルトンのタンパク質グループのみ以下の表に示します。
| グループ | タンパク質 | 
|---|---|
| P4 | E3 ubiquitin-protein ligase Mdm2 | 
| P5 | Bromodomain-containing protein 4 | 
| P7 | Menin | 
| P8 | Apoptosis regulator Bcl-2 | 
| P9 | E3 ubiquitin-protein ligase XIAP | 
Protease

シングルトンのタンパク質グループのみ以下の表に示します。
| グループ | タンパク質 | 
|---|---|
| P10 | Ubiquitin carboxyl-terminal hydrolase 2 | 
| P11 | Renin | 
| P12 | Cathepsin S | 
| P13 | Prothrombin | 
| P14 | Coagulation factor XI | 
| P15 | Ubiquitin carboxyl-terminal hydrolase 1 | 
| P19 | Cathepsin K | 
| P20 | Lysosomal Pro-X carboxypeptidase | 
| P21 | Beta-secretase 2 | 
| P22 | Cathepsin D | 
| P24 | Neutrophil elastase | 
| P25 | Dipeptidyl peptidase 4 | 
| P28 | Proprotein convertase subtilisin/kexin type 9 | 
| P29 | Complement factor D | 
| P3 | Coagulation factor X | 
| P5 | Beta-secretase 1 | 
| P9 | Cathepsin B | 
Transporter

シングルトンのタンパク質グループのみ以下の表に示します。
| グループ | タンパク質 | 
|---|---|
| P1 | Sodium-dependent serotonin transporter | 
| P5 | Sodium- and chloride-dependent glycine transporter 1 | 
| P7 | ATP-dependent translocase ABCB1 | 
| P8 | Solute carrier family 2, facilitated glucose transporter member 1 | 
結果ファイル
このブログで計算した結果(生データ)を以下のリンクからダウンロードできます。構造式データについてはキシダ化学の方へ問い合わせ頂ければ入手できます。これらのデータをCGBVS法やキシダ化学バーチャルライブラリの評価などにご利用頂けると幸いです。
Raw Data に含まれるファイルについて
| ファイル名 | ファイルの内容 | 
|---|---|
| cyp_out_all.txt | Cytochrome標的タンパクによるプロファイリングデータ | 
| esterase_out_all.txt | Esterase標的タンパクによるプロファイリングデータ | 
| gpcr_out_all.txt | GPCR標的タンパクによるプロファイリングデータ | 
| ionch_out_all.txt | Ion channel標的タンパクによるプロファイリングデータ | 
| kinase_out_all.txt | Kinase標的タンパクによるプロファイリングデータ | 
| nhr_out_all.txt | Nuclear receptor標的タンパクによるプロファイリングデータ | 
| ppi_out_all.txt | PPI標的タンパクによるプロファイリングデータ | 
| protease_out_all.txt | Protease標的タンパクによるプロファイリングデータ | 
| trans_out_all.txt | Transporter標的タンパクによるプロファイリングデータ | 
| CompoundClusterLabels.csv | 化合物IDとクラスターラベルのCSVファイル | 
Category: AI創薬関連, CGBVS/CzeekS