データマイニングおよびデータベースからの知識発見(Knowledge Discovery and Data Mining: KDD)とは、従来、統計解析の手法では扱うことの難しかったデータを含めて、あらゆる形式のデータベースから知識を抽出する新しい研究分野です。KDDの特徴は、データ解析をデータベース、人工知能、統計の3つを統合的なプロセスととらえるところにあり、これら3つの分野の境界領域ととらえることができます。
医学は生化学、特にその中でも分子生物学といわれる分野の発展に伴い、様々な疾患の発症機構が明らかとなるとともに、生化学、免疫学的検査技術の発展により、疾患の診断精度も向上してきた。しかしながら、現在においても、以下のような点で医師の診察による理学的な検査の重要性は変わっていない。
(1) 経過及び予後の推定:
意識障害の症例においては、その原因の探索において、CT、MRI等の画像検査、血中アンモニア濃度等の生化学検査等は有効であるが、これらの検査は患者の意識障害の程度、経過及び予後についての推定にはあまり有効でない。依然として、理学的所見(神経学的所見)の組み合わせが患者の状態の判定に有効であり、専門家の経験が極めて重要である。
(2) 検査のコスト:
診断能力の高い画像、生化学検査は一般に検査のコストが極めて高い。したがって、コストの低い検査である程度診断候補を絞り込み、最終的な診断にコストの高い検査を利用することが望ましい。診察による理学的所見及びアルコール、たばこ等の嗜好、職歴、既往歴等の病歴上の所見によってある程度の疾患の鑑別を行なうことが必要である。
以上のごとく、どのような理学的所見、病歴上の所見がどの程度、疾患の診断あるいは予防に寄与できるかということについて興味がもたれ、疫学、公衆衛生学を中心として統計学的手法を用いて研究されてきた。20世紀前半までの医学においては寄生虫、細菌による感染症の予防がテーマで、患者の頻発する地域に関するデータから、予防手段についての有効な知識が得られた。20世紀後半においては、動脈硬化、糖尿病等の成人病に関する予防がテーマとなり、脳血管障害、心疾患等の予防に関する有効な知識が得られた。現在の主たるテーマは癌や痴呆といった未だ発症機序も明らかでない疾患に関する知識の抽出であるが、これまでの疾患に比べて、有効な知識が得られていない。
これらの要請とは別に、1980年代になって、病院情報システムの発展とともに計測データの電子化、データベース化が著しく進み、癌プロトコルデータベースをはじめ、膨大なデータの集積が可能となってきた。このような電子化の進展によって集積された膨大なデータは人の処理能力をはるかに越え、計算機による有効な使用方法確立の必要性が指摘されるようになった。
以上のように、癌や痴呆をはじめとする難病の予防に関する知識の獲得及び現在蓄積されつつある膨大なデータベースからの有効な知識の抽出を目的として、いままでの統計学的手法のみならず、Data Mining及びKnowledge Discoveryin Databases (KDD)の手法の有効性が期待されている。
参考文献: 津本周作, 田中博 データマイニングの医療応用. 人工知能学会誌, 12, 536-543, 1997.
担当者: 津本周作
1. ラフ集合理論とリサンプリング法による医療データベースからの知識獲得
表形式の診療データベースからif-thenルールを抽出し、その確信度を推定する手法の開発にあたり、Rough集合論によるルール生成の手法と2-fold Cross-validationおよびBootstrap法とによる確信度推定の組み合わせが、診断知識の獲得に有効であることを示した。
参考文献:
2. ラフ集合理論による医療データベースからの漸増型帰納学習システムの開発
従来の手法では、データベースの追加・改訂があった場合、再度ルール生成アルゴリズムを駆動させて、ルール生成を繰り返す必要があり、計算効率が極めて悪いことが判明したために、データの追加・改訂にしたがって、柔軟にルールの改訂を行える「漸増型ルール生成システム」の開発を行い、漸増型システムが動的なデータベース蓄積の環境で有効であることを示した。
参考文献:
津本は、1998年度より、知識ベースシステム研究会(KBS研究会)の幹事として、「共通データによる知識発見システムの比較・評価」のテーマで、
において特別セッション・研究会を主催してきている。知識ベース研究会では、今後もデータマイニングに関する試みを継続していく予定である。
機械学習,特に経験的学習の手法は,専門家の知識が含まれるデータベースから専門家と類似の知識を獲得するために開発されてきた.一方,データベースからの知識発見は,専門家の持っている知識とは異なる新たな知識を抽出することも重要な目的であり,機械学習の手法と目的が必ずしも一致しない.知識発見においては,従来の機械学習における予測正答率の評価とは異なり,生成された知識を専門家の知識から解釈する過程が必要であり,その解釈を経て,発見のプロセスがされていくと考えられる.以上の視点から,KBS研究会では津本周作(島根医科大)を中心にして,研究会,ならびに全国大会特別セッションにおいて,下記のような知識発見に関する特集を企画してきた.
1.1998年度全国大会特別セッション:髄膜脳炎データセットからの知識発見(1)
(津本,鷲尾・元田,寺野,鈴木,鐘)
2.第42回KBS研究会(1999.1):髄膜脳炎データセットからの知識発見(2)
(津本,鷲尾・元田,寺野,鈴木,鐘,山口,田崎,岡田,Tu Bao HO,福田)
3.1999年度全国大会特別セッション:細菌検査データセットからの知識発見
(津本,寺野,山口,鷲尾・元田)
4.第45回KBS&FAI合同研究会(1999.9):膠原病データセットからの知識発見
(津本,沼尾,山口,鈴木,鷲尾・元田)
5.PKDD(3rdEuropean Conference on Principles and Practice
of Knowledge
Discovery in Databases) (1999.9)におけるDiscovery Challengeで共通データとして採用
この試みは、PKDD Discovery Challenge以降、国際会議の中でも評価され始めました。今後も、この形式のワークショップ、パネルセッションに取り組む予定で、すでに
において開催が予定されています。
Last Updated: Dec, 1, 1999.