SiGN: 大規模遺伝子ネットワーク推定ソフトウェア

大規模遺伝子ネットワーク推定ソフトウェア SiGN (サイン) は DNA チップなどで得られる遺伝子発現データやタンパク発現データ, miRNA を含む noncoding RNA 発現データなどから細胞内分子の発現制御システムのモデル化・予測を行うスーパーコンピュータ用ソフトウェア群です. SiGN は時系列発現データからシステムをモデル化する状態空間モデルを用いた SiGN-SSM, 時系列データおよびノックダウンや患者サンプルなどの静的データから遺伝子間の発現の依存関係をベイジアンネットワークを用いて予測する SiGN-BN, 静的データから遺伝子間の発現の依存関係をL1正則化法を用いて予測する SiGN-L1 の 3 つの数学的・統計学的モデルを用いて大規模遺伝子ネットワークを予測・推定することができます. SiGN は非常に複雑で大量の計算を行うため,実行にはスーパーコンピュータが必須です. このソフトウェアは 2012 年に完成が予定されている次世代スーパーコンピュータ「京」(けい)を利活用するために理化学研究所の次世代計算科学研究開発プログラムが進めている 「次世代生命体統合シミュレーションの研究開発」プロジェクトで研究開発されているソフトウェアの1つで 10 ペタフロップスを最大限活用できるよう現在研究開発が進んでいます. SiGN は「京」およびヒトゲノムゲノム解析センターのスーパーコンピュータのユーザが自由に使用できるようになる予定です. 予測・推定された遺伝子ネットワークはネットワークシミュレーション・解析ソフトウェア Cell Illustrator Online を用いて解析可能です.

List of Software

SiGN-SSM

SiGN-SSM(サイン-SSM) は時系列遺伝子発現データから遺伝子ネットワークを推定するためのオープンソースソフトウェアです. SiGN-SSMは状態空間モデル(SSM: State Space Model) と呼ばれる動的な統計モデルを時系列の多変量観測データから推定します. 状態空間モデルは,核となる動的システムを記述する「モジュール」と, モジュールから各遺伝子への対応付けにより, 細胞内遺伝子発現の動的な変化および遺伝子間の依存関係をモデル化します. SiGN-SSM は様々な並列実行環境を用いて並列動作することが可能で, 通常の PC に搭載されたマルチコア CPU による並列実行から PC クラスタや 超並列スーパーコンピュータを用いた数百〜数千並列の動作に対応しています. SiGN-SSM は遺伝子間の動的な依存関係を解析するだけでなく, 時系列データを用いた有意に発現差のある遺伝子抽出も可能です.

^ Go to Top

SiGN-BN

SiGN-BN はベイジアンネットワークを用いた遺伝子ネットワーク推定ソフトウェアです. 一般的なベイジアンネットワークモデルとは異なり,親子関係のモデリングに B-スプラインによる連続値ノンパラメトリック回帰モデルを用いているのが特徴の一つです. 遺伝子の制御関係は一般に非線形であるため,これは遺伝子ネットワークとして適したモデリング方法です. 観測データに適したベイジアンネットワークの構造推定は非常に多くの計算が必要なため, 大規模な遺伝子ネットワーク解析には用いられてきませんでした. 我々の研究グループではこの問題を克服する,スーパーコンピュータを活用した様々なアルゴリズムを開発しています. 現在,推定したい遺伝子ネットワークサイズに応じて以下の3種類の構造推定アルゴリズムが実装されています. (a) 1000遺伝子程度まで適用可能な greedy hill-climbing アルゴリズムとブートストラップ法を組み合わせた方法, (b) 2万以上の全ゲノム遺伝子に適用可能な neighbor node sampling & repeat アルゴリズム, および (c) 最大32遺伝子までの全体最適構造を探索可能な Para-OS アルゴリズム.

HGC スパコンユーザは SiGN-BN を自由に利用可能です.今後「京」ユーザに提供を予定しています.

^ Go to Top

SiGN-L1

SiGN-L1 はスパース学習法を用いた遺伝子ネットワーク推定ソフトウェアです. これは L1-正則化を用いガウシアングラフィカルモデルやベクター自己回帰モデルなどの統計的グラフィカルモデルのパラメータ学習およびモデル選択を同時に行うものです. 現在以下の3つのアルゴリズムにより疎ネットワーク構造をL1正則化を用いて推定します. (a) Weighted lasso, (b) recursive elastic net, および (c) relevance-weighted recursive elastic net. これらのうち最初の2つは10万以上の分子からなる大規模ネットワークを推定することを目的とし, 最後のアルゴリズムは遺伝子ネットワーク推定と様々な条件下で観測された生物学的データによる比較法を実装したもので1000遺伝子程度の中規模遺伝子ネットワークに適用可能です.

現在,当研究グループとの共同研究者が利用可能です.今後 HGC スパコン・「京」ユーザに提供を予定しています.

^ Go to Top

ACKNOWLEDGEMENTS

SiGN は,理化学研究所 次世代計算科学研究開発プログラムで研究・開発している 「次世代生命体統合シミュレーションソフトウェアの研究開発プロジェクト (ISLiM)」 の元で開発されたものです. SiGN の開発に必要な計算機資源は,ヒトゲノム解析センターのスーパーコンピュータ, 及び理化学研究所のスーパーコンピュータ RICC から提供さています. SiGN は文部科学省新学術領域研究「システムがん」の支援も受けています.

^ Go to Top

Copyright © 2010 - 2012
東京大学 医科学研究所 ヒトゲノム解析センター
DNA 情報解析分野 & DNAシーケンスデータ情報処理

理化学研究所 次世代計算科学研究開発プログラム
データ解析融合研究開発チーム

Contact: 玉田 嘉紀 <tamada ATMARK is.s.u-tokyo.ac.jp>