KNIMEを用いてCGBVS計算を行います (前編)

 はじめまして!インテージヘルスケアの川崎と申します。今回の投稿は、タイトルの通り、KNIMEを使ったCGBVS計算を紹介します。内容が長くなるので、以下のように前編と後編に分けます。

  1. KNIMEのダウンロード都インストール(前編)
  2. CzeekSのインストール(前編)
  3. KNIMEでのCzeekSワークフロー作成と実行(後編)

まず、計算マシンスペックについてですが、今回の検証で私が使っているマシンスペックを紹介します。

  • OS: Ubuntu18.04 Desktop(KNIMEを使うためDesktopのあるOSが必須です。)
  • CPU: Intel Core i7-4790, 3.6GHz, 8 processors
  • Memory: 16Gb
  • HDD storage: 1 Tb (500Gbでも問題ないと思います)

KNIMEとは?

 KNIME(名称:KNIME Analytics Platform)は無償でオープンソースのデータ分析プラットフォームです。統計分析や機械学習などの機能をワークフローの形で統合して簡単に実行できます。ノードと呼ばれる機能団を線で繋ぐことによりワークフローが出来上がります。初めてKNIMEをインストールしたときには、既にいくつもの有用なノードが使えます。目的に応じて必要なノードを選択して線で繋いで使えますが、目的のノードが無い場合は、「extension」をインストールする必要があります。extensionはKNIMEに機能を追加するためのものです。extensionはKNIMEの機能によりWEB経由でワンクリックで簡単にインストールできますが、一般的でない機能などはマニュアルでインストールするしかありません。例えば今回の内容で使用するDragon7もその一つです。以下でDragon7のextensionのインストールについて説明します。

 KNIMEの詳細についてはココでご確認ください。

CGBVSってなんだ?

 CGBVSは「Chemogenomics-based Virtual Screening」の略称ですが、この技術は様々の標的タンパクと化合物の相互作用データを用いて、機械学習を行うことで予測モデルが出来上がります。CGBVSの計算を行うにはCzeekSという有償のソフトウェアを使用します。CzeekSは京都大学奥野先生のCGBVS技術を基に弊社で開発した化合物スクリーニングソフトウェアです。CzeekSは有償なのでライセンスが必要ですが、トライアルライセンスも提供しているので評価のために使うことができます。もっと詳しい情報は次のリンクのページを見てください。

https://www.insilico.jp/czeeks.html

 CzeekSの学習と予測には、化合物記述子の計算が必要になりますが、その記述子の計算にDragon7というソフトウェアを使用しています。Dragon7はケモインフォマティクスの分野でよく使われているソフトウェアですが、これも有償なのでライセンスが必要です。KNIMEで利用できるextensionもありますので、KNIMEを通して使うと結構便利です。Dragon7の詳細については以下のリンクをクリックしてください。

https://chm.kode-solutions.net/products_dragon.php

KNIMEのダウンロードとインストール

 まず、KNIMEのHPからKNIMEのインストラーをダウンロードする必要があります。KNIMEのホームページのページの右上にある「Download」リンクをクリックします。

ダウンロードリンクをクリックすると、以下のフォームが表示されます。このフォームの記入は必須ではありませんが、記入して提出すれば、KNIMEの使い方などについて色々な情報が送られます。必要ではない場合は、フォームを記入せずに、赤の枠のところをクリックしてください。

実際のダウンロードページは次に現れます。Windows、Linux、Mac用のインストールファイルはありますが、Linux用のインストラーを選んで赤の枠のところをクリックします。

ダウンロードが完了しましたら、アーカイブファイルを決めた場所に移動してから展開します。KNIMEを起動するには展開したアーカイブフォルダーのなかにある「knime」実行ファイルを実行して良いですが、デスクトップでランチャーを作成することはおすすめです。インストールが完了しましたら、一度KNIMEを起動してください。起動するときに、ワークスペースの場所について聞かれることがあります。これは特にルールはありませんが、なるべくリモートの場所(NASなど)を指定しないほうが良いともいます。

次に、必要なextensionをダウンロードします。これを行うには以下の図のようにextensionをインストールするウィンドウを開きます。

メニューで「File」をクリックして、ドラップダウンメニューで「Install KNIME Extensions」を選んでクリックします。

Extensionがインストールできるウィンドウが表示されます。その中に、extensionのリストがありますが今回の話に必要なextension、「KNIME and Extensions」と「KNIME Labs Extensions」のカテゴリーのみ選びますのでそれらのカテゴリーラベルの左にあるチェックボックスをクリクします。次、「Next」ボタンをクリックします。

以上のように、必要のカテゴリーを選び、「Next」のボタンをクリックします。

表示されるウィンドウにも「Next」ボタンをクリックしてください。その後、以下のようにライセンス条件の同意が必要となりますが、同意して「Finish」ボタンをクリックしてください。

ウィンドウが閉じられますが、裏でextensionのインストールが行われています。インストールが完了しましたら、以下のようにKNIMEの再起動が求められます。

「Restart Now」ボタンをクリックしてKNIMEが再起度されます。

再起動ができましたら、KNIMEのウィンドウの左下にある「Node Repository」のパネルに「KNIME Labs」と「Chemistry」のextensionがあるかどうかを確認します。

Dragon7のextensionのインストール

 Dragon7のextensionをダウンロードとインストールの手順です。Dragon7のライセンスを持っているユーザーはDragon7のメーカKode社のサイトから、アカウントを作成後、ダウンロードします。ダウンロードが出来ましたら、extensionのjarファイルをKNIMEのインストールフォルダーのしたにある「dropins」のフォルダーにコピーします。その後、KNIMEを再起動し、Node RepositoryパネルにDragon7のextensionを確認します。確認できましたらここでextensionのインストールは完了です。次のステプにKNIMEはまだ使いませんので、とりあえずKNIMEを閉じます。

CzeekSのインストール

 CzeekSをインストールするにはCzeekSのインストールアーカイブファイルを取得する必要があります。インストールアーカイブを取得するために、以下のページから弊社まで問い合わせして、CzeekSのトライアルを依頼してください。購入したい方もそのページでも問い合わせできます。

https://www.insilico.jp/inquiry/

インストールアーカイブをダウンロードが出来ましたら、使用する予定マシンの適当な場所に移動して展開します。「tgz」ファイルなので、terminalで以下のtarコマンドで展開できます。

tar xvzf <CzeekS_*******.tgz>

展開されましたフォルダーには実行プログラムファイル「cgbvs」を含めて、いくつかのファイルありますがライセンスはまだ設置されていないためCzeekSは動きません。ライセンスファイルを取得するため、「minfo」というファイルを実行します。実行しましたら、出てくる文字列を弊社担当者にメールで送って、その後ライセンスが返信れます。ライセンスは取得出来ましたら、CzeekSのフォルダーに設置します。その後、CzeekSが動くかどうか確認するため一度「cgbvs」コマンドを実行してください。正しく動いている場合は、以下の図のようにCzeekSバージョン、コマンドの使い方とsubcommandのリストは表示されます。これで、CzeekSのインストールは完了です。

CzeekS ver. 1.2 (build #305) 

usage: cgbvs <subcommand> [options] [args]
Available subcommands:
  add 
  add_model 
  comment 
  create 
  delete 
  del_model 
  import 
  learn 
  predict 
  shrink 
  status 

 次は、メインの「KNIMEでのCzeekSワークフロー作成と実行」の話題です。乞う御期待!