japan.internet.com The Internet & IT Network


RSSニュース検索
カテゴリ
> トップページ
> Webビジネス
> Eコマース
> Webファイナンス
> Webマーケティング
> パブリック
> Webテクノロジー
> 携帯・ワイヤレス
> Linux Today
> Linux Tutorial
> J.I.C.ブログ
キャリア
> 転職ならen
> 派遣ならen
> アルバイトならen
> IT求人情報
ヘッドライン
> 今日のヘッドライン
> 週間ヘッドライン
Special Link
> フォトコミュニティ
> ストックフォト
> クリップアート
> イラスト
> フェリカ
> Web2.0
> 写真
イベント&セミナー
> イベントカレンダー
> 書評「IT の耳」
> 出張・接待検索
> ニュースガジェット 注目
無料ニュースメール
> 新規登録
> 変更・解除
> オプトインメールの登録・変更・解除
インフォメーション
> パートナーサイト
転職ならエン
就職ならen
求人ならen
履歴書ならen
アルバイトならエン
CRM/SFAならオラクル
> グループ会社
株式会社アエリア
(株)サンゼロミニッツ
株式会社エアネット
> お問い合わせ
> 広告掲載について
> リンクについて
> 著作権について
> その他お問い合わせ
> 利用規約
> 個人情報保護方針
> 会社概要地図
テクノロジー
2006年6月21日 09:00
情報抽出技術で情報集約 テクノロジー・バックナンバー
著者: 日本ユニシス 暮井豊 | プリント用画面 | メールで記事を転送する
このエントリーを含むはてなブックマーク この記事をクリップ! Buzzurlにブックマーク Yahoo!ブックマークに登録 newsing it!
1. 情報抽出(Information Extraction)とは
まず、本稿の主要キーワードである「情報抽出」についてその定義のいくつかを紹介しておくことにします:

i. 『特定の文章やサイトから必要な情報をフィルタリングなどを通して取得する方法』(参考文献1より)

ii. 『the extraction or pulling out of pertinent information from large volumes of texts』(参考文献2より)

iii. 『特定のテーマの情報を非構造的な文書の中から抽出し、構造化されたかたちで提示する技術』(参考文献3より)

文章(テキスト)から所望の情報を取り出すという点ではどれも意味するところは同じですが、抽出対象の性質や抽出後の扱いにも言及しているという点で上記のiii.がより丁寧に表現してあると考えます。

一般に、文書の中には図や表も含まれますが、その多くは自然言語で記述された文章で構成されています。自然言語で記述された任意の文章は、そこに何がどのように記述されているかといった構造をあらかじめ厳密に規定しておくことができないという意味で「非構造的」です。

本稿では、このような非構造的な文章から必要とする情報を特定した上で抽出し、それを構造化したかたち(例えば表のような形式)で提示することで再利用可能とすることを「情報抽出」と呼び、それを行うための関連技術を「情報抽出技術」と呼ぶことにします。

2. 情報抽出技術の起源とその流れ
参考文献3によれば、情報抽出技術の起源は米国の MUC(Message Understanding Conference)という国際会議で1987年から開始された情報抽出プロジェクトにあるそうです。そこでは、新聞記事などの非構造的テキストから、テロ活動、製品開発、人事異動、企業合併、ロケット発射情報といった国防や企業活動に関する情報を抽出し、構造的な情報への変換を行っていたということです。米国防総省の研究・開発部門である DARPA がこの MUC のスポンサーであったことから、国防に関する情報が対象になっていたというのもうなずけます。

また、参考文献4によれば、MUC における情報抽出技術は、『新聞記事のようなテキストから、あらかじめ指定されたイベントや事柄に関する情報を抽出し、その情報を表形式のデータベースに入力するという技術』とあります。抽出対象となる情報は、前もって「抽出したい情報の型」が決められるものであれば何でもよく、同文献では例として次のようなものを挙げています:

・産業界に役立ちそうな情報 合弁事業の情報 / 新製品の情報/新事業の情報

・研究者に役立ちそうな情報 科学技術論文における技術内容 / 医療カルテ、ゲノムといった特定分野の文章における注目される情報(たとえばタンパク質の役割)

・個人に役立ちそうな情報 アイドル歌手の活動情報 / スポーツなどの特定イベントの情報

さらに、この技術のポイントとして、一般に文章を理解するという技術に比べ、あらかじめ抽出したい情報の型が与えられているということにより、比較的に実現が容易であるとも述べています。そこで用いられる要素技術としては、自然言語解析技術の一つである形態素解析などに加え、名称、数値表現、重要表現などを特定する固有表現抽出、所望の情報がどのように表現されているかをパターン化しマッチングさせる技術などがあります。

しかし、現在の情報抽出の研究では抽出の対象を Web 文書などに広げ、「ニーズの高い特定の情報についての大量の抽出」あるいは「様々な情報についての自由な抽出」といった方向に広がってきているようです。

3. 電子化が進む文書からの情報抽出
現在、企業はもちろんのことあらゆる組織活動で作成される文書の多くは電子化されています。それら電子化された文書は、ワープロ文書ファイル、HTML 文書ファイルといった様々なファイル形式で公開・流通されています。このように公開・流通されている電子文書には当然それなりに有益な情報が含まれているはずです。

これらの中身を人が読むことでその中に含まれている情報を得ているわけですが、そこからある程度自動的に必要としている情報を抽出することができれば、多くの文書から効率的に情報を集めておくことができます。また、文書に含まれている数値データなどを抽出して、情報システムの入力データとすることも可能です。

例えば、多くの企業は自社ホームページで有価証券報告書を公開しています。その中には、貸借対照表や損益計算書といった財務諸表が必ず記載されています。このように文書内に記載された状態の財務諸表からそこに含まれる勘定科目と対応する数値データを抽出し、情報システムに取り込めるように変換するといったことも可能です。

この有価証券報告書などは PDF ファイルとして公開されていることが多いわけですが、それ以外にも、文書を作成するのに利用したアプリケーションソフトの専用ファイル形式そのままではなく、PDF ファイルに変換した上で公開することが多くなっています。便利なことに、PDF ファイルからテキスト情報を抜き出すツールはいくつか存在しており、その中にはオープンソースソフトウェアのものまであります。

これらを使用すれば PDF ファイルから文章すなわちテキスト情報を抜き出すことができます。そうなれば、そこから所望の情報を抽出することも容易になるというわけです。一つの考え方として、一旦 PDF ファイルに変換しておくことで、元の文書ファイル形式に依存せずに、テキスト情報を対象とした情報抽出が行えることになります。

4. 最大の情報源である Web からの情報抽出
前項では,主に一般の文書ファイルを想定して述べましたが、最大の情報源といえば、やはり Web です。その中から所望の情報を抽出することができれば、母集合が大きいだけに多くの情報を集めることが可能となります。Web の情報を集めてくる例としては、Google に代表されるような全文検索型サーチエンジンのための検索データベース作成があります。そこで活躍するのが「検索ロボット」(あるいは「クローラ」、「スパイダ」)と呼ばれる Web ページの内容をかき集めてくるソフトウェアプログラムです。

また、かき集めてくる行為を「クローリング」と呼んでいます。このサーチエンジンの例は、検索のために必要となる情報を抽出するという意味では内部的には情報抽出を行っていると言えますが、その利用者(検索者)から見れば、所望する情報を含んでいる Web ページを特定するための道具、すなわち情報抽出を行う前段階の道具として位置づけられることになります。

情報抽出を行いたい先の Web サイトがある程度絞り込まれていれば、検索ロボットと同様に自動的にそれらサイトを巡回し、Web ページの内容を集めてくることは比較的容易に行うことができます。

集めた内容は HTML で記述された単なるテキスト情報なので、そこから Web サイトの特性、Web ページ内の HTML タグや特定の文字列などを手掛かりとして必要となる情報を抜き出す(この行為を「スクレーピング」と呼ぶ)ことができます。もちろん、すべての場合において正確に抽出できるとは限りませんが、これを自動的に行わせることで、人の負荷はかなり低減できます。

最近、Blog やニュースサイトでは「RSS フィード」と呼ばれる形態でそのサイトの掲載内容に関する情報を発信しています。RSS フィードは XML で記述されており、一般の文章に比べ構造的であるため、そのようなフィードを利用しての情報抽出はより容易で正確なものになり得ます。また、Web ページに意味を付与することでコンピュータが自律的に処理を行えるようにしようとする「セマンティック Web」へと進展していけば、情報抽出の容易性やその精度がさらに高まることにもなるでしょう。

しかし、現時点ではすべての Web ページが情報抽出にとってより都合の良い構造的な情報発信を行っているわけではありませんし、多くの Web ページがそのようになるまでにはまだまだ時間を要すると思われます。したがって,非構造的な Web ページに対してのクローリング、スクレーピングによる情報抽出はまだまだ有用であると考えます。

5. 最後に
インターネット上の Web サイトには、Web ブラウザで表示させるために HTML で記述されているページはもちろんのこと、PDF ファイルなどのようにファイルをダウンロードした上で専用ソフトウェアによって表示するものまで様々な形式の文書が公開されています。そのような環境の中、情報抽出技術は、特定のテーマに関する情報を複数の Web サイトから抽出し、まとめて一覧表示するといった「情報集約」のために役立てることもできます。

もちろん、100%正確に情報を抽出してくることはなかなか難しいわけですが、段階的に抽出方法をカスタマイズしたり、集めた情報を人手でさらにカスタマイズしたりするなどで精度の向上が見込めるため、ある程度までの自動化ができうるというところがポイントです。

現在、クローリングやスクレーピングの詳細な手法を知らなくても、テーマや情報抽出対象 Web サイトなどを指定するだけで、誰でも容易に情報抽出/情報集約を行えるようにしてみたいとも考えています。


【参考文献】
1) フリー百科事典「ウィキペディア(Wikipedia)」: 情報抽出、 http://ja.wikipedia.org/wiki/%E6%83%85%E5%A0%B1%E6%8A%BD%E5%87%BA
2) SAIC Information Extraction: http://www.itl.nist.gov/iaui/894.02/related_projects/muc/index.html
3) 関根 聡: 「1 情報抽出 −情報を整理して提示する−」、 IPSJ Magazine Vol.45 No.6 June 2004.
4) 関根 聡: 「4 テキストからの情報抽出 −文書から特定の情報を抜き出す−」、 IPSJ Magazine Vol.40 No.4 Apr. 1999.

暮井 豊
日本ユニシス株式会社
先端技術部
技術開発室
研究員


提供:日本ユニシスユニシス





関連記事
  • Opera、最新ブラウザ「Opera 9」正式版をダウンロード開始
  • 事業者向け SEO 支援ツールを無料提供、「SEOTOOLS」がオープン
  • チームラボ、人の主観・興味を重視した検索エンジン「SAGOOL」を公開
  • 日常の作業とセキュリティ
  • 日本ユニシスとマイクロソフト、金融機関向け「統制系」アーキテクチャーを発表


  • 関連テーマ
  • RSS
  • Google
  • Blog
  • ブラウザ
  • フィルタリング
  • オープンソース
  • XML


  • ★最新トップニュース
    海外 【ケータイ USA】イギリスの団体が iPhone の広告における Apple の虚偽に言及(携帯・ワイヤレス 8月30日 13:00)
    イギリスの広告基準協議会(Advertising Standards Authority:ASA)は、Apple に広告における真実について、訓戒を説こうとしているらしい。
    国内 ASUS、電源オンから約7秒で起動するコンパクト PC「Eee Box」を発表画像のある記事(Webテクノロジー 8月29日 18:20)
    ASUS は2008年8月29日、低価格なコンパクト PC「Eee Box B202」を9月13日に発売する、と発表した。
    国内 【今週の Web ミミズク】「予測市場」の将来を予測したい…(Webビジネス 8月29日 18:10)
    「予測市場」という言葉をちらちら耳にする。「予測」と「市場」という組み合わせが、耳新しいのかもしれない。あるいは、未来を予想できるかもしれない、という期待もあるかもしれない。
    国内 G DATA がゼロアワー攻撃の拡大を警告(Webテクノロジー 8月29日 18:00)
    G DATA が、国内でのゼロアワー攻撃が拡大している、と警告を発している。同社が2008年8月29日、明らかにした。
    国内 KDDI、「光で操作ナビ」などを搭載した簡単ケータイ「W62PT」を8月30日発売画像のある記事(携帯・ワイヤレス 8月29日 18:00)
    KDDI、沖縄セルラーは、2008年8月29日、au 携帯電話新ラインアップとして、パンテック&キュリテル製の簡単ケータイ「W62PT」を8月30日に全国一斉発売することを発表した。
    トピックス
    > オススメのIT系求人情報【毎週月曜日更新】
    footer_301.gif


    リサーチ
    > デイリーリサーチDLサイト
    > OnlineResearchPortal (リサーチデータバンク)
    > モバイルリサーチ with goo
    footer_301.gif
    キーワード
    > iPhone > Youtube
    > Google > モバイルノート
    > 半導体 > ウィルコム
    > テーマ一覧はこちら
    footer_301.gif
    セミナー情報
    > 第2回インターネットコムマーケティングセミナー
    「モバイルマーケティングの世界」〜これだけはやっておきたいモバイルマーケティング施策とは〜
    9月24日(水)13:00〜17:00 ITS 山王健保会館
    ※詳しくはこちら
    footer_301.gif
    デベロッパー
    > DevX
    > CodeGuru
    > developer.com
    footer_301.gif
    j.i.c.ブログ
    ブログ一覧
    ベンチャー専門家の目利きブログ「なぜこの企業は伸びるのか?」 【ベンチャー専門家の目利きブログ「なぜこの企業は伸びるのか?」】
    「選択と集中」選択をして集中しない限りは勝てない/メディカル・コミュニケーションズ株式会社(8月29日)
    データメーション 【データメーション】
    Apple は顧客の忠誠心にあぐらをかいているのか? (8月27日)
    Graphic Design Forum 【Graphic Design Forum】
    次へとつながる輪 (8月27日)
    最新テクノロジーの意外な処方箋 【最新テクノロジーの意外な処方箋】
    あなたが舌なめずりしたくなるようなもの(8月26日)
    エンジニアの独り言 【エンジニアの独り言】
    データをローカルに保存するWebアプリケーション(8月22日)
    デスマーチからの脱却 【デスマーチからの脱却】
    30min. iPhoneアプリリリース(8月18日)
    footer_301.gif
    最新コラム一覧
    台湾企業が席巻する電子製品製造 台湾企業が席巻する電子製品製造

    世界の IT 産業を担う台湾製造企業、馬政権誕生で中・台産業関係さらに緊密へ(8月29日)
    IT マネジメント IT マネジメント

    IT を変えつつあるのはどの技術?(8月29日)
    最新ハイテク講座 最新ハイテク講座

    繁栄か滅亡か!巨大なエネルギー「原子力」の未来(8月29日)
    developer.com developer.com

    レガシーWebアプリケーションをWebLogic Portal内のフルページIFrameとして統合する(8月29日)
    百式のネットビジネス研究 百式のネットビジネス研究

    友達にあなた特製のクスリを贈ることができる「Get Your Drug On」(8月29日)
    週刊-サイト別アクセス状況データ 週刊-サイト別アクセス状況データ

    ビデオリサーチインタラクティブ調査(月間インターネットオーディエンスデータ)(8月28日)
    「IT の耳」 「IT の耳」

    【書評】『1回の会議・打ち合わせで必ず結論を出す技術』――無意味な会議を撲滅する(8月28日)
    ハードウェアから見たデータベース ハードウェアから見たデータベース

    巨大テーブル活用術1(8月28日)
    ウチのサイトを SEO ウチのサイトを SEO

    検索エンジンが見ている世界(8月27日)
    エンジニア転職ノウハウ開発室 エンジニア転職ノウハウ開発室

    目指せecoエンジニア!グリーンITで地球を救え(8月26日)
    footer_301.gif
    専門チャンネル
    > セキュリティチャネル > テレコムチャネル
    > サーチエンジンウォッチ
    footer_301.gif
    海外のインターネットコム アメリカ韓国ドイツトルコ
    関連企業のサイト:ストックフォト イラスト ネットストリート ホテル予約サイト タウン情報 出張 事業継承 シミュレーション トランクルーム 優待映画チケット 田舎暮らしガイド オリジナルデザインTシャツ ニタコエ
    Copyright 2008 Jupitermedia Corporation All Rights Reserved. http://www.internet.com/
    space.gif space.gif