大規模遺伝子ネットワーク推定ソフトウェア SiGN (サイン) は DNA チップなどで得られる遺伝子発現データやタンパク発現データ、 miRNA を含む noncoding RNA 発現データなどから細胞内分子の発現制御システムのモデル化・予測を行うスーパーコンピュータ用ソフトウェア群です。 SiGN は時系列発現データからシステムをモデル化する状態空間モデルを用いた SiGN-SSM、 時系列データおよびノックダウンや患者サンプルなどの静的データから遺伝子間の発現の依存関係をベイジアンネットワークを用いて予測する SiGN-BN、 静的データから遺伝子間の発現の依存関係をL1正則化法を用いて予測する SiGN-L1 の 3 つの数学的・統計学的モデルを用いて大規模遺伝子ネットワークを予測・推定することができます。 SiGN は非常に複雑で大量の計算を行うため、実行にはスーパーコンピュータが必須です。 このソフトウェアは 2011 年に 10 ペタフロップスを達成したスーパーコンピュータ「京」(けい)を利活用するために理化学研究所の次世代計算科学研究開発プログラムが進めている 「次世代生命体統合シミュレーションの研究開発」プロジェクトで研究開発されていたソフトウェアの1つで 10 ペタフロップスを最大限活用できるように開発されています。 SiGN は「京」およびヒトゲノムゲノム解析センターのスーパーコンピュータのユーザが自由に使用できます。 予測・推定された遺伝子ネットワークはネットワークシミュレーション・解析ソフトウェア Cell Illustrator Online を用いて解析可能です。
SiGN-SSM(サイン-SSM) は時系列遺伝子発現データから遺伝子ネットワークを推定するためのオープンソースソフトウェアです. SiGN-SSMは状態空間モデル(SSM: State Space Model) と呼ばれる動的な統計モデルを時系列の多変量観測データから推定します. 状態空間モデルは,核となる動的システムを記述する「モジュール」と, モジュールから各遺伝子への対応付けにより, 細胞内遺伝子発現の動的な変化および遺伝子間の依存関係をモデル化します. SiGN-SSM は様々な並列実行環境を用いて並列動作することが可能で, 通常の PC に搭載されたマルチコア CPU による並列実行から PC クラスタや 超並列スーパーコンピュータを用いた数百〜数千並列の動作に対応しています. SiGN-SSM は遺伝子間の動的な依存関係を解析するだけでなく, 時系列データを用いた有意に発現差のある遺伝子抽出も可能です.
SiGN-BN はベイジアンネットワークを用いた遺伝子ネットワーク推定ソフトウェアです. 一般的なベイジアンネットワークモデルとは異なり,親子関係のモデリングに B-スプラインによる連続値ノンパラメトリック回帰モデルを用いているのが特徴の一つです. 遺伝子の制御関係は一般に非線形であるため,これは遺伝子ネットワークとして適したモデリング方法です. 観測データに適したベイジアンネットワークの構造推定は非常に多くの計算が必要なため, 大規模な遺伝子ネットワーク解析には用いられてきませんでした. 我々の研究グループではこの問題を克服する,スーパーコンピュータを活用した様々なアルゴリズムを開発しています. 現在,推定したい遺伝子ネットワークサイズに応じて以下の3種類の構造推定アルゴリズムが実装されています. (a) 1000遺伝子程度まで適用可能な greedy hill-climbing アルゴリズムとブートストラップ法を組み合わせた方法, (b) 2万以上の全ゲノム遺伝子に適用可能な neighbor node sampling & repeat アルゴリズム, および (c) 最大37遺伝子までの全体最適構造を探索可能な ParaOS-DC アルゴリズム.
SiGN-L1 はスパース学習法を用いた遺伝子ネットワーク推定ソフトウェアです. これは L1-正則化を用いガウシアングラフィカルモデルやベクター自己回帰モデルなどの統計的グラフィカルモデルのパラメータ学習およびモデル選択を同時に行うものです. 現在以下の3つのアルゴリズムにより疎ネットワーク構造をL1正則化を用いて推定します. (a) Weighted lasso, (b) recursive elastic net, および (c) relevance-weighted recursive elastic net. これらのうち最初の2つは10万以上の分子からなる大規模ネットワークを推定することを目的とし, 最後のアルゴリズムは遺伝子ネットワーク推定と様々な条件下で観測された生物学的データによる比較法を実装したもので1000遺伝子程度の中規模遺伝子ネットワークに適用可能です.
SiGN は,理化学研究所 次世代計算科学研究開発プログラムで研究・開発している 「次世代生命体統合シミュレーションソフトウェアの研究開発プロジェクト (ISLiM)」 の元で開発されたものです。その後、HPCI 戦略プログラム分野1「予測する生命科学・医療および創薬基盤」および 文部科学省新学術領域研究「システムがん」の支援を受けていました。 現在は理化学研究所 FLAGSHIP 2020 Project(ポスト「京」開発事業)重点課題2「個別化・予防医療を支援する統合計算生命科学」および文部科学省新学術領域研究「システムがん新次元」の支援を受けています。 SiGN の開発に必要な計算機資源は,ヒトゲノム解析センターのスーパーコンピュータ、 及び理化学研究所のスーパーコンピュータ RICC から提供さています。
Copyright © 2010 - 2018
東京大学
医科学研究所
ヒトゲノム解析センター
DNA 情報解析分野 & DNAシーケンスデータ情報処理分野
理化学研究所 次世代計算科学研究開発プログラム
データ解析融合研究開発チーム
Contact: 玉田 嘉紀 <tamada DOT yoshinori DOT 8a ATMARK kyoto-u.ac.jp>