ゲノム情報科学研究教育機構  アブストラクト
Date April 27, 2009
Speaker Dr. 中谷 明弘 (東京大学大学院新領域創成科学研究科)
Title KEGG OC: 網羅的なオーソログクラスタの自動生成
Abstract アミノ酸配列の相同性による遺伝子間の相互関係の全体は、遺伝子を 頂点とし、遺伝子間の相互関係を辺とする相同性ネットワークとして表 すことができる。相同性の強さで辺の重みを定義するとき、重みの大き な辺で互いに高い確率で結ばれたクリーク様構造を構成する頂点集合は、 「似たもの同士の集まり」を表していて、機能を共有する遺伝子群(オ ーソログクラスター)に相当する。単一の遺伝子を問い合わせとする相 同性検索は、問い合わせ遺伝子を表す頂点に辺で結ばれた頂点集合を抽 出する操作に相当するが、検索で得られる遺伝子同士の相同性は高いと は限らない。このため、クリーク様構造を抽出するためには、得られた 遺伝子を問い合わせとする検索を繰り返して、全ての検索結果に共通に 含まれる遺伝子群を見つける必要がある。この処理は、「似ている相手 が似ているもの同士の集まり」を見つけることに相当するので、辺で結 ばれる先の頂点がどの程度共有されているかを指標としたクラスタリン グで実現できる。そこで、KEGG OCでは、この指標に基づいた遺伝子のク ラスタリングを行い、類似した機能をもつと予想される遺伝子群をオー ソログクラスター(OC)として分類している。その際には、生物種間の系 統関係に基づき、詳細な系統グループからボトムアップにオーソログ関 係を評価する。これによって、系統樹で定義される階層構造を反映した オーソログ情報が生成できる。具体的には、まず、生物種ごとにクラス タリングを行ってパラログクラスター(PC)を生成する。次に、近縁生物 種のPCをクラスタリングしてグループクラスター(GC)を生成する。以降、 系統樹を遡りながら、下位階層で得られたGCをクラスタリングして上位 階層の GCに纏めることを再帰的に繰り返す。系統樹の根で得られるGCは 全ての生物種をカバーしており、これをオーソログクラスター(OC)とし て定義する。各階層のクラスタリングでは、遺伝子間あるいは系統グル ープ間の系統樹内での位置関係を考慮することで、系統分岐前から存在 した相同関係をクラスタリング時に用いないようにする処理を行ってい る。その結果、クラスター内でのパラログ関係をその系統グループで特 異的に出現したものに限定することが可能になっている。また、処理対 象の絞り込みによって、計算時間の大幅な削減が実現しており、定期的 な自動更新システムの構築が可能となっている。
「セミナー」に戻る      
 ホーム