「薬理ゲノミクスのための化合物・糖鎖データベースの開発」
(Database of chemical compounds and glycans for pharmacogenomics)

京都大学化学研究所
バイオインフォマティクスセンター
生命知識システム
五斗 進

 ゲノム配列やマイクロアレイの発現データなどの網羅的な情報を系統的に解析し、創薬へとつなげるためには、それらを低分子化合物、糖鎖、脂質など他の生体分子情報と結びつけて統合的に解析する必要がある。本研究では、化合物・化学反応データベースLIGANDの開発を通して、ゲノムや遺伝子発現などのデータを薬理ゲノミクスへと応用できる仕組みを構築することを目的としている。LIGANDには、化合物データベースCOMPOUND、薬剤構造データベースDRUG、糖鎖構造データベースGLYCAN、反応データベースREACTION、反応パターンデータベースRPAIR、酵素データベースENZYMEがあり、ゲノム情報との統合による化合物の生合成・分解経路予測などへの応用にも力を入れている。本プロジェクトではLIGANDの中でも、特にGLYCANとその周辺解析ツールの開発を中心に、KEGGのパスウェイ情報・階層分類情報や実験データとの連携に重点をおいて研究を進めてきた。

糖鎖構造データベースGLYCAN
 GLYCANは、文献に報告されている糖鎖構造をデータベース化したものである。初期データとしてCarbBankの情報を用いたが、KEGGにおける糖鎖の生合成・代謝パスウェイデータの作成と同時に糖鎖構造データの新規入力も行っている[2]。糖鎖構造は、単糖をノード、グリコシル結合をエッジとする木構造で表現できるが、化合物のグラフ表現であるKEGG Chemical Function (KCF)フォーマットを提案し、糖鎖構造にも応用した。また、KCFの入力ツールであるKegDraw、KCFに基づく類似構造検索システムKCaMを開発し、GLYCANにおける構造検索ツールとして利用している[6]。
 さらに、糖鎖構造を遺伝子発現やゲノムの情報と統合的に解析するために、複数の糖鎖構造を同時に表現するためのComposite Structure Map (CSM)を開発した。CSMでは各グリコシル結合に対応する糖転移酵素遺伝子が割り当てられており、遺伝子発現情報からの糖鎖構造予測や、糖鎖構造の種間比較に応用できる[4]。

遺伝子発現情報を用いた糖鎖構造の予測
 細胞内外で発現している糖鎖構造を同定するための実験技術が発展してきているとはいえ、ゲノム情報に比べるとまだまだ難しい。そこで、遺伝子発現情報からそこで発現している糖鎖構造を計算機で予測できれば有用である。我々は、糖鎖構造のデータベースと糖転移酵素の遺伝子発現情報から、糖鎖構造を予測する方法を開発してきた[1,3]。この方法では、まずデータベースに登録されている各糖鎖構造について、その糖鎖が合成されるために必要な糖転移反応を抽出し、同時に使われる反応ペアを定義する。同時に発現している2つの糖転移酵素の情報と糖鎖構造から抽出した反応ペアの情報とを利用して、各糖鎖構造のスコアを計算する。そして、そのスコアが高いものが実際に合成されていると予測する。この方法を、ヒトの癌組織での遺伝子発現データから、癌特異的に発現していると考えられる糖鎖構造の予測に応用した。

ヒト白血病特異的糖鎖構造モチーフの抽出
 GLYCANに登録されている糖鎖構造のうち、白血病細胞、赤血球、血漿、血清に存在する糖鎖構造を分類するための、特徴的な構造モチーフを抽出するために、サポートベクトルマシン(SVM)を用いた学習による分類手法を開発した。ここでは、糖鎖構造中で隣り合うグリコシル結合が構造中のルートから見てどの位置にあるかを判断基準としながら分類した。その結果、実験的に確かめられた白血病細胞特異的糖鎖構造を特徴づけるモチーフ(3つの単糖からなる部分構造)を抽出することができた[5]。

発表論文
[1] Suga, A., Yamanishi, Y., Hashimoto, K., Goto, S., and Kanehisa, M.; An improved scoring scheme for predicting glycan structures from gene expression data. Genome Informatics, 18(1), in press (2007).
[2] Hashimoto, K., Goto, S., Kawano, S., Aoki-Kinoshita, K. F., Ueda, N., Hamajima, M., Kawasaki, T., and Kanehisa, M.; KEGG as a glycome informatics resource. Glycobiology, 16:63R-70R (2006).
[3] Kawano, S., Hashimoto, K., Miyama, T., Goto, S., and Kanehisa, M.; Prediction of glycan structures from gene expression data based on glycosyltransferase reactions. Bioinformatics, 21:3976-3982 (2005).
[4] Hashimoto, K., Kawano, S., Goto, S., Aoki-Kinoshita, K. F., Kawashima, M., and Kanehisa, M.; A global representation of the carbohydrate structures: a tool for the analysis of glycan. Genome Informatics, 16(1):214-222 (2005).
[5] Hizukuri, Y., Yamanishi, Y., Nakamura, O., Yagi, F., Goto, S., and Kanehisa, M.; Extraction of leukemia specific glycan motifs in human by computational glycomics. Carbohydr. Res., 340:2270-2278 (2005).
[6] Aoki, K. F., Yamaguchi, A., Ueda, N., Akutsu, T., Mamitsuka, H., Goto, S., and Kanehisa, M.; KCaM (KEGG Carbohydrate Matcher): a software tool for analyzing the structures of carbohydrate sugar chains. Nucleic Acids Res. 32:W267-W272 (2004).