データベースシステムによるインターネットに基づいた医療情報のための自律的且つ能動的な疫学情報解析支援システムの開発

森下 淳也†, 木田 展子‡
†神戸大学国際文化学部, ‡オージス総研

 

はじめに
 インターネットの普及に伴い、ホームページによる情報発信やメーリングリストなどによって、即時性の高い多くの有益な情報がネットワークを通じて全世界から入手できるようになってきた。これらのネットワーク情報を即座に収集し、分類及び解析を行なうことが出来れば、多くの有益な成果が得られることは疑いがない。このようなシステムを構築したいという構想の基に、感染症情報のメーリングリストであるProMED-mailのメール情報をメーリングリストからの配付と同時に、データの解析を行ない、分類し、データベースに格納するトータルシステムを構築中である。
 単にProMED-mailのメール情報をデータベースに格納することは、既にProMED-mail自身が行なっている 。我々のシステムでは、送られてきた情報を解析して、分類、集計を行ない、ProMED-mailが作り出す情報のパターンを分析できるデータベースシステムを目指している。

ProMED解析データベースシステム
 我々のシステムの構成を図1に掲げる。データベースシステムを中心にメールの受け入れ解析サブシステムにおいて、情報の獲得と分類を行なった後、データベースに格納される。分類されてデータベースに格納されたデータは適当な時間間隔で集計サブシステムにおいて、集計処理が行なわれ、データベースに結果として格納される。これらの生成されたデータに基づいて評価サブシステムは、指定された条件が発生した場合、利用者への告知などのアクションを自動的に生成する。
 現在、雛形として用意されているシステムは、受入解析サブシステムと集計システムである。また、このデータベースへのホームページからのアクセスを行なうインターフェースサブシステムも稼動している。評価サブシステムは現在検討中である。
 これらのシステムにおいては3つの重要なパートがある。
1. 情報の獲得と分類
2. 情報の集計
3. 情報の評価
である。これらはそれぞれ異なる技術的な側面を持っている。


1. 情報の獲得と分類
 電子メールで送られてくるデータはテキストデータであり、何ら構造を持たない。このデータから情報を獲得するには、何らかの形でコンピュータがその内容を読み、そのテキストに埋め込まれた情報を認知する必要がある。具体的には病名が何であるか、どこで発生したものかなどをコンピュータが判定することである。この行為を厳密に行なうことは大変困難である。ここでは、キーワードを抽出し、それが何であるかを判定する基準を設けることで、データベースに登録する。この作業も容易なことではない。キーワードの抽出方法としては自然言語処理に基づいたもの、構文解析システム(text tagger等)によるコーパスに基づくものなどが挙げられる。抽出されたキーワードは、テキスト内の位置情報やシソーラス、辞書に基づいて、その意味が決定される。
 現在のシステムでは、テキスト内の位置情報から、トピック(病名)と地域情報を取り出すという最も簡単なキーワードのみを対象にしている。これはProMED-mailの編集者が正確な書式を守って情報を提供しているためである。
 分類は、自律的に行なうことが困難な作業である。なぜならば分類は目的が伴うからである。そのため、過不足のない分類の設計を専門家に委ねる必要がある。現在のシステムではほぼキーワードと対応した分類になっている。


2. 情報の集計
 日々刻々と蓄積されるデータは、コンビニの売り上げデータのようなものである。それを集計することは、必要な解析の際に行なえば良いものであるが、その数が膨大になる場合、多くの時間を要する。特に多次元の分類やクロス集計などは場合分けが多くなるため、予め、集計を行ないデータベースに蓄積する方法が取られる。特にデータの集合を統計的に評価するような場合は、この集計そのものがデータとなる。これはデータウェアハウスのデータマイニングの手法として一般的である。


3.情報の評価
 日々のデータを集計しながら、システムは特別な条件を満たす事象が起こるかどうかをモニターしていく。ここで問題となるのは、特別な条件の設定である。これも分類の場合と同様、専門家の判断を必要とする。また、データベースが能動的にデータを評価してアクションを起こすというシステム自身がまだまだ整備されていない。このようなシステムをアクティブデータベースという。ECAルールに基づくアクティブデータベースの実装を検討する必要がある。

これから
 現在、雛形では有るがProMED解析データベースシステムを開発し稼動させている。いわば器が出来た状態である。データ量は昨年の2月からで、約2,900件ほどである。図2にインターフェースサブシステムのページと評価の例を示す。このシステムを元に、情報の獲得を整備して、より現実的なシステムへと改良して行きたい。その際、専門家の方々に、御協力頂いて、分類と評価を充実させて、現実に研究を支援できるシステムへと導けたらと願っている。「狼が来た」とコンピュータのかわいい少年が騒ぐ日を夢見ています。

 

プログラム