平成13年度発足 科学研究費補助金 特定研究領域(B)

「情報洪水時代におけるアクティブマイニングの実現」

 

研究項目A03-研究計画(09)

ラフ集合に基づく アクティブマイニングによる診療情報生成システムの開発

研究代表者 津本周作 (島根大学医学部医療情報学講座、ホームページ
研究分担者

高林克日己 (千葉大学医学部附属病院医療情報部、ホームページ)

  柳樂真佐実 (島根大学医学部医療情報学講座、ホームページ
  平野章二 (島根大学医学部医療情報学講座、ホームページ

 

<共通データのダウンロードはこちら(研究班メンバー限定アクセス)>

 

研究の背景

計算機の能力の向上とデータベースソフトウェアの性能の向上により,遺伝子データベース,癌プロトコルデータベースを始めとした科学的データベースのみならず,検査データベース,検診データベースを含めた医学・医療データベースも,膨大な量のデータが蓄積されるようになってきた.このような膨大な量のデータはすでに人の処理能力をはるかに越えるものとなっており,計算機による有効な使用方法の確立が医学・医療の分野においても急務とされている.

研究目的および予想される結果と意義

本研究の目的は,医学の専門家から問題領域の背景知識等の提供を受け,どのような知識を抽出すべきか,ルール生成のモデルを作成,計算機に実装,次に,提供を受けたデータベースからルール・統計的な知識を抽出し,実際に,医療データを用いて,モデルの妥当性を検証するとともに,実際に抽出した知識の有効性を専門家の知識を用いて検討,最も有効な診療情報生成モデルを開発することで,医療・医学の分野におけるアクティブマイニングの技術を確立することにある.

このルール生成モデルは次の3つのプロセスからなる:

(1)データベースのプリプロセッシング:

データベースが構築された段階では,データの記入漏れ,記入の誤り,データ蓄積時のノイズなどさまざまな要因によって,データベース自体の質があまりよくない場合がありうる.このようなことを防ぐ手法と万が一,そのようなデータがあった場合に除去するという手法は,データのプリプロセッシングと呼ばれるが,有効な自動化の方法が導入されておらず,未だに手作業によって行われている.したがって,有効な自動化の手法の開発が必要である.また,データのプリプロセッシングを有効に行うためには,可視化の開発も重要である.

(2)データベースの解析:

データベース解析の手法には,統計学的手法と機械学習的手法(ルール生成)とに大別されるが,データの性質によって,両手法を使い分けることが必要である.特に,従来の医学・医療データベースへの知識発見の適用例では,連関ルールといわれるルール生成の方法が有効であるとされてきた.しかしながら,これは適用分野によって,有効でない場合が指摘されており,データベース解析として様々な手法を併用することが勧められている.本研究においては,医学・医療データベースからの知識生成の第一段階として,有効な手法は何かということを探究するのがその目的の一つである.

(3)ルールからの仮説生成・モデル構築:

統計的手法で得られる回帰式及び機械学習的手法によるルールは,医学・医療のモデルを構築するための仮説を生成したとみなすことができる.この仮説を元に,医療における診断モデルを構築していく手法をある程度自動化することは,アクティブマイニングによる診療支援システムの構築を容易にするために必須である.

本研究では,次節で述べるラフ集合モデルを利用して,上記3つのプロセスを行い,医療・医学データベースから知識を抽出する手法を確立する.結果として,以下のような意義があると考えられる:

(1) 本手法により包括的な医学・医療データベース解析の手法が得られ,今後,医学・医療分野におけるデータ解析に新たな方向性を与えることができる.

(2) 本手法によるデータ解析は医療データベースの領域のみならず,医事会計システムのデータ解析への応用も考えられる.近年,国立大学医学部附属病院を含め,国公立病院の経営改善の必要性が指摘されており,本手法で確立した手法を適用することで,病院経営に関する知識を抽出,実際の経営状態およびそのsolutionの提供が行える.

 

研究方法: ラフ集合論

研究代表者はこれまで,より複雑なパターンである医学的な専門家の診断知識を大規模なデータベースから抽出する方法を開発することを目的とし,既存の帰納学習の方法(ラフ集合論)をより拡張し,診断知識を抽出するシステムを開発中である.ラフ集合理論は従来の厳密なる集合論的な公理系の条件を少し弛めて,あいまいな集合の形式を扱えるように論理的な集合論を拡張した理論であり,例えば,ある疾患を満たすデータベースのレコード番号による集合(例:{1,2})で,確実にある疾患である集合をpositive領域(例:{1}),ある疾患である可能性である集合をpossible領域(例:{1,2,3,4}:{3,4}は他疾患),境界領域をboundary領域(例:{2,3,4})と呼ぶ.このような3つの領域によって,ある疾患である可能性のある集合をその上限と下限によっておさえられる.この手法を用いれば,知識を明瞭で冗長さの少ない形へのreductionとあいまいな知識を含んだ区間的な知識(概念の上限・下限)を抽出できる.

研究計画

本研究では,上述した三種類の方法の確立を目指して,各年において以下のような計画で研究を行う.平成13年度: データベースのプリプロセッシングに関する手法の確立 年度前半においては、医学・医療データベースの統計的性質,全体像を様々な角度から可視化することによって,ユーザーが,まず手作業によっても半自動的にデータの記入漏れ,記入の誤り等を訂正していくことができるために必要な技術の開発を行う.年度後半においては,医学・医療データベースを用いて,開発したシステムの評価を行う.

平成14年度: データベースの解析手法の確立(ルール生成)

研究代表者は、これまでラフ集合論によるルール生成法を医療データベースに適用することで様々な成果を得、これらを知識発見に関する国際会議、アメリカ医療情報学会等で発表し、国際的に高い評価を得てきた。平成14年度の研究では、これまでに医療の分野で確立してきたルール生成法の有効性をさらにアクティブマイニングの観点から検証する。次に、本研究において医療・医学特有の領域知識を導入することで、専門家にとって有益である発見できるかどうかを検証する。

平成15年度: 生成されたルールからの仮説生成モデルの構築

通常、大規模なデータベースから生成されるルールは膨大な量となり、それらを専門家によって検証してもらい、新たな仮説を生成することは困難であることが多い。そこで、年度前半は、医療・医学データベースから得られた膨大な量のルールをさらに二次的に解釈し、ルールからの仮説生成が容易になるような手法を確立する。具体的には、ルールの類似度を算出、クラスタリングすることで、ルールを大きなグループに分けることで、各グループ間、グループ内のルールの性質を検証できる形で専門家に提出するシステムを開発する.

平成16年度: 医療データベースへの適用と検証

平成15年度までに開発したシステムをさまざまな医療データベースに適用,検証を行って,アクティブマイニングによる診療情報自動生成システムの開発を完了させる.

 

最終更新日: 平成15年10月1日

島根大学トップページへ戻る医学部トップページへ戻る


Copyright(C) 1999-2005, Department of Medical Informatics, Shimane University School of Medicine.
All rights reserved.