|
|
 |
| ■ 情報抽出技術で情報集約 |
テクノロジー・バックナンバー |
| 著者: 日本ユニシス 暮井豊 | プリント用画面 | メールで記事を転送する |
|
|
1. 情報抽出(Information Extraction)とは
まず、本稿の主要キーワードである「情報抽出」についてその定義のいくつかを紹介しておくことにします:
i. 『特定の文章やサイトから必要な情報をフィルタリングなどを通して取得する方法』(参考文献1より)
ii. 『the extraction or pulling out of pertinent information from large volumes of texts』(参考文献2より)
iii. 『特定のテーマの情報を非構造的な文書の中から抽出し、構造化されたかたちで提示する技術』(参考文献3より)
文章(テキスト)から所望の情報を取り出すという点ではどれも意味するところは同じですが、抽出対象の性質や抽出後の扱いにも言及しているという点で上記のiii.がより丁寧に表現してあると考えます。
一般に、文書の中には図や表も含まれますが、その多くは自然言語で記述された文章で構成されています。自然言語で記述された任意の文章は、そこに何がどのように記述されているかといった構造をあらかじめ厳密に規定しておくことができないという意味で「非構造的」です。
本稿では、このような非構造的な文章から必要とする情報を特定した上で抽出し、それを構造化したかたち(例えば表のような形式)で提示することで再利用可能とすることを「情報抽出」と呼び、それを行うための関連技術を「情報抽出技術」と呼ぶことにします。
2. 情報抽出技術の起源とその流れ
参考文献3によれば、情報抽出技術の起源は米国の MUC(Message Understanding Conference)という国際会議で1987年から開始された情報抽出プロジェクトにあるそうです。そこでは、新聞記事などの非構造的テキストから、テロ活動、製品開発、人事異動、企業合併、ロケット発射情報といった国防や企業活動に関する情報を抽出し、構造的な情報への変換を行っていたということです。米国防総省の研究・開発部門である DARPA がこの MUC のスポンサーであったことから、国防に関する情報が対象になっていたというのもうなずけます。
また、参考文献4によれば、MUC における情報抽出技術は、『新聞記事のようなテキストから、あらかじめ指定されたイベントや事柄に関する情報を抽出し、その情報を表形式のデータベースに入力するという技術』とあります。抽出対象となる情報は、前もって「抽出したい情報の型」が決められるものであれば何でもよく、同文献では例として次のようなものを挙げています:
・産業界に役立ちそうな情報 合弁事業の情報 / 新製品の情報/新事業の情報
・研究者に役立ちそうな情報 科学技術論文における技術内容 / 医療カルテ、ゲノムといった特定分野の文章における注目される情報(たとえばタンパク質の役割)
・個人に役立ちそうな情報 アイドル歌手の活動情報 / スポーツなどの特定イベントの情報
さらに、この技術のポイントとして、一般に文章を理解するという技術に比べ、あらかじめ抽出したい情報の型が与えられているということにより、比較的に実現が容易であるとも述べています。そこで用いられる要素技術としては、自然言語解析技術の一つである形態素解析などに加え、名称、数値表現、重要表現などを特定する固有表現抽出、所望の情報がどのように表現されているかをパターン化しマッチングさせる技術などがあります。
しかし、現在の情報抽出の研究では抽出の対象を Web 文書などに広げ、「ニーズの高い特定の情報についての大量の抽出」あるいは「様々な情報についての自由な抽出」といった方向に広がってきているようです。
3. 電子化が進む文書からの情報抽出
現在、企業はもちろんのことあらゆる組織活動で作成される文書の多くは電子化されています。それら電子化された文書は、ワープロ文書ファイル、HTML 文書ファイルといった様々なファイル形式で公開・流通されています。このように公開・流通されている電子文書には当然それなりに有益な情報が含まれているはずです。
これらの中身を人が読むことでその中に含まれている情報を得ているわけですが、そこからある程度自動的に必要としている情報を抽出することができれば、多くの文書から効率的に情報を集めておくことができます。また、文書に含まれている数値データなどを抽出して、情報システムの入力データとすることも可能です。
例えば、多くの企業は自社ホームページで有価証券報告書を公開しています。その中には、貸借対照表や損益計算書といった財務諸表が必ず記載されています。このように文書内に記載された状態の財務諸表からそこに含まれる勘定科目と対応する数値データを抽出し、情報システムに取り込めるように変換するといったことも可能です。
この有価証券報告書などは PDF ファイルとして公開されていることが多いわけですが、それ以外にも、文書を作成するのに利用したアプリケーションソフトの専用ファイル形式そのままではなく、PDF ファイルに変換した上で公開することが多くなっています。便利なことに、PDF ファイルからテキスト情報を抜き出すツールはいくつか存在しており、その中にはオープンソースソフトウェアのものまであります。
これらを使用すれば PDF ファイルから文章すなわちテキスト情報を抜き出すことができます。そうなれば、そこから所望の情報を抽出することも容易になるというわけです。一つの考え方として、一旦 PDF ファイルに変換しておくことで、元の文書ファイル形式に依存せずに、テキスト情報を対象とした情報抽出が行えることになります。
4. 最大の情報源である Web からの情報抽出
前項では,主に一般の文書ファイルを想定して述べましたが、最大の情報源といえば、やはり Web です。その中から所望の情報を抽出することができれば、母集合が大きいだけに多くの情報を集めることが可能となります。Web の情報を集めてくる例としては、Google に代表されるような全文検索型サーチエンジンのための検索データベース作成があります。そこで活躍するのが「検索ロボット」(あるいは「クローラ」、「スパイダ」)と呼ばれる Web ページの内容をかき集めてくるソフトウェアプログラムです。
また、かき集めてくる行為を「クローリング」と呼んでいます。このサーチエンジンの例は、検索のために必要となる情報を抽出するという意味では内部的には情報抽出を行っていると言えますが、その利用者(検索者)から見れば、所望する情報を含んでいる Web ページを特定するための道具、すなわち情報抽出を行う前段階の道具として位置づけられることになります。
情報抽出を行いたい先の Web サイトがある程度絞り込まれていれば、検索ロボットと同様に自動的にそれらサイトを巡回し、Web ページの内容を集めてくることは比較的容易に行うことができます。
集めた内容は HTML で記述された単なるテキスト情報なので、そこから Web サイトの特性、Web ページ内の HTML タグや特定の文字列などを手掛かりとして必要となる情報を抜き出す(この行為を「スクレーピング」と呼ぶ)ことができます。もちろん、すべての場合において正確に抽出できるとは限りませんが、これを自動的に行わせることで、人の負荷はかなり低減できます。
最近、Blog やニュースサイトでは「RSS フィード」と呼ばれる形態でそのサイトの掲載内容に関する情報を発信しています。RSS フィードは XML で記述されており、一般の文章に比べ構造的であるため、そのようなフィードを利用しての情報抽出はより容易で正確なものになり得ます。また、Web ページに意味を付与することでコンピュータが自律的に処理を行えるようにしようとする「セマンティック Web」へと進展していけば、情報抽出の容易性やその精度がさらに高まることにもなるでしょう。
しかし、現時点ではすべての Web ページが情報抽出にとってより都合の良い構造的な情報発信を行っているわけではありませんし、多くの Web ページがそのようになるまでにはまだまだ時間を要すると思われます。したがって,非構造的な Web ページに対してのクローリング、スクレーピングによる情報抽出はまだまだ有用であると考えます。
5. 最後に
インターネット上の Web サイトには、Web ブラウザで表示させるために HTML で記述されているページはもちろんのこと、PDF ファイルなどのようにファイルをダウンロードした上で専用ソフトウェアによって表示するものまで様々な形式の文書が公開されています。そのような環境の中、情報抽出技術は、特定のテーマに関する情報を複数の Web サイトから抽出し、まとめて一覧表示するといった「情報集約」のために役立てることもできます。
もちろん、100%正確に情報を抽出してくることはなかなか難しいわけですが、段階的に抽出方法をカスタマイズしたり、集めた情報を人手でさらにカスタマイズしたりするなどで精度の向上が見込めるため、ある程度までの自動化ができうるというところがポイントです。
現在、クローリングやスクレーピングの詳細な手法を知らなくても、テーマや情報抽出対象 Web サイトなどを指定するだけで、誰でも容易に情報抽出/情報集約を行えるようにしてみたいとも考えています。
【参考文献】
1) フリー百科事典「ウィキペディア(Wikipedia)」: 情報抽出、 http://ja.wikipedia.org/wiki/%E6%83%85%E5%A0%B1%E6%8A%BD%E5%87%BA
2) SAIC Information Extraction: http://www.itl.nist.gov/iaui/894.02/related_projects/muc/index.html
3) 関根 聡: 「1 情報抽出 −情報を整理して提示する−」、 IPSJ Magazine Vol.45 No.6 June 2004.
4) 関根 聡: 「4 テキストからの情報抽出 −文書から特定の情報を抜き出す−」、 IPSJ Magazine Vol.40 No.4 Apr. 1999.
|
|
暮井 豊
日本ユニシス株式会社 先端技術部
技術開発室
研究員
提供:日本ユニシス
関連記事 Opera、最新ブラウザ「Opera 9」正式版をダウンロード開始
事業者向け SEO 支援ツールを無料提供、「SEOTOOLS」がオープン
チームラボ、人の主観・興味を重視した検索エンジン「SAGOOL」を公開
日常の作業とセキュリティ
日本ユニシスとマイクロソフト、金融機関向け「統制系」アーキテクチャーを発表
関連テーマ RSS
Google
Blog
ブラウザ
フィルタリング
オープンソース
XML
|
|
 |
|
ブログ一覧 |
 |
 |
【ベンチャー専門家の目利きブログ「なぜこの企業は伸びるのか?」】
|
 |
 |
【データメーション】
|
 |
 |
【Graphic Design Forum】
|
 |
 |
【最新テクノロジーの意外な処方箋】
|
 |
 |
【エンジニアの独り言】
|
 |
 |
【デスマーチからの脱却】
|
|
 |
|