japan.internet.comThe Internet & IT Network
RSS
  • ニュース
  • コラム
  • リサーチ
  • ヘッドライン
  • 特集
  • ブログ
  • プレスリリース
  • 専門チャンネル
  • イベント
  • ランキング
  • ニュースメール
2008年10月11日
文字サイズ文字サイズ小文字サイズ中文字サイズ大

情報検索の技術−Web 情報検索エンジンの活用

国内国内internet.com発の記事
  • このエントリーを含むはてなブックマーク
  • この記事をクリップ!
  • Buzzurlにブックマーク
  • Yahoo!ブックマークに登録
  • newsing it!
1.Web 情報検索エンジンの利用

欲しい情報をタイムリーに入手するための効率的な情報収集の方法は、情報検索を「意味的、目的的」に支援してくれる検索エンジンの活用にある。

WWW 上で検索サービスを提供する検索サイト(検索ポータル)のシステムを、検索エンジン(サーチエンジン:search engine)と呼ぶ。検索サイトでは CGI を介して、利用者が指定した検索キーワードを自分が蓄積したデータベースと突合し、一致した Web ページの URL を目的候補として抽出、引用文とともに結果として返す。結果のうち、求める情報に最も近い(と思われる)ものを利用者がクリックすると、その Web ページが表示される。

WWW の検索エンジン技術は、短期間で急速に成長した。広告収入に頼る商用ベースで運用するためには支配的なシェアが収入に直結することから、ニュースや天気、生活情報案内、掲示板等のネットコミュニティ、ページカスタマイズや無料メールボックスなどによるパーソナルサービス機能など機能拡充とサービス拡大が行われ、『Web 総合ポータル』へと変身が進んだ。Infoseek、Lycos、Excite、AltaVista そして今や Yahoo! が覇者となった。

こうした中に登場した Google(1999)は、極端に簡素なページレイアウトで当初から検索ポータルのみに特化した検索システムである。独自のハイパーリンク構造分析アルゴリズム PageRank を実装し、主要な Web 総合ポータルサイトの検索エンジンとして公式に採用されたことから、2002年8月には検索エンジン市場シェアの過半数を得るに到った。

現在95%の検索エンジンがハイパーリンク構造の解析手法を採り入れている。「Google キラー」を標榜する WiseNut や新興の TEOMA が、コンテキストベースのハイパーリンク分析で検索の適合性を高め、Google の人気に肉薄している。WWW の利用者は複数の検索エンジンを上手に使い分けることに習熟しつつある、という。

2.検索エンジンの検索特性

Web 上の分散デジタルコンテンツ検索技術では、従来の演算子や適合順位付け出力、あいまい検索、自然言語処理、多言語検索に加え、マルチメディア検索、高度なリンク検索、更新ページの収集、ページタイプ判定、などが可能となった。さらにシソーラス(語彙)辞書による複合条件検索(同義、広義/狭義、多義、あついは概念、あいまい、推論など)も、知識構造化された分散デジタルコンテンツによって可能となりつつある。

検索システムの検索特性は、自身のデータベースの格納形態と構造に依存する(代表例:1)ディレクトリ型、2)ロボット型、3)知識ベース型(メタ検索型)、4)P2P 型)ディレクトリ型は新しく作られた Web ページを主として登録制で収集し、階層構造のカテゴリリストを備えることで、主題からの階層的な探索を可能とする。ロボット型は「スパイダー」と呼ぶエージェント(プログラム)で世界中のサーバーを自動的に定期巡回し、情報収集、Web ページの内容全文を検索対象として索引付けする。

知識ベース型は最近登場したメタ検索型エンジンで、新顔の MetaCrawler で代表される。自身のデータベースを持たず、ユーザの検索条件を複数の検索エンジンに送って検索させ、結果を加工して返す。P2P 型はピアのネットワーク上でリレー式にピア検索を行い、見付けたデータの索引情報を検索元のピアへ返す。ハイパーリンク解析などの手法は必要なく、参照頻度の高いコンテンツほど自動的に高いランクに配置される。グリッド コンピューティング技術を P2P 型のスパイダーで実装した Grub が最近稼働を開始した。

3.検索エンジンの技術課題

検索効率から見ると4つの方式は一長一短があり、時に複数の組み合わせで使われる。
ディレクトリ型は目的別検索に適しており、検索精度は高い。反面キーワードが Web ページ作成側で登録されるため、未登録ページは検索できないなど情報量が少なく、ロボット型に比べて検索率は低い。ロボット型は収録データが大規模で、相当数の Web ページ(Google で約18億ページ)を対象に全文検索できる反面、ゴミ情報も拾ってきてしまう確率が高く、求める情報を絞り込むのに膨大な時間を要することがある。

知識ベース型は目的に合う絞り込みを自動で行うが、個別に検索エンジンが用意している検索オプションの利用が制限されるなどの制約がある。P2P 型では大規模な索引データベースもハイパーリンクの追跡・解析も要らないが、Web ページのコンテンツを一意に表現するメタデータ規格の制定に難儀している。

共通する最大の解決課題は、全文検索の効率と精度を飛躍的に向上させることである。これは企業や行政機関で広く使われている、スパイダーを使わないタイプの情報検索エンジン(OpenText や Namazu 等)でも何ら変わらない。WWW について言えば、スパイダーでは到達できないWebページが全世界で40億ページもあるということが問題だ。Barbasi(「新ネットワーク思考」)によれば、WWW のネットワークトポロジーを構成する「ハイパーリンクの一方向性」という基本技術の特性が、到達できない(戻れない)多くの Web ページを生んでいる、という。

限界を打破するための技術探求がコミュニティレベル、さらには国家レベルで行われており、コンテンツのセマンティック Web 化や P2P 型の超(双方向)ハイパーリンクが有力候補として浮上している。それらが実装され普及するまでは、Web 技術者が注意深くリンク漏れが起きないような Web サイトを構築し、現実と妥協しながら過ごすしかなさそうだ。

ところで日本では、国民と行政の知的公共財たる行政情報としての分散デジタルコンテンツが、こうであってはならない。官民連携ポータル等で情報公開の推進と説明責任の徹底を目指すなら、検索エンジンの機能や性能にもっと注目が集まってしかるべきだろう。

河上 一郎

日本ユニシス株式会社
官公庁営業/技術主幹


提供:日本ユニシス知的情報活用ソリューション

関連テーマ
最新トップニュース
データメーション
【データメーション】
在宅勤務者にやめて欲しいこと(10月10日)
ベンチャー専門家の目利きブログ「なぜこの企業は伸びるのか?」
【ベンチャー専門家の目利きブログ「なぜこの企業は伸びるのか?」】
「お客様に使われる商品開発は『1%の閃きと99%の努力』から!」/株式会社エス・アンド・ケイ(10月10日)
Graphic Design Forum
【Graphic Design Forum】
活気に満ちた誕生日をどうぞ (10月8日)
エンジニアの独り言
【エンジニアの独り言】
得体の知れない情報(?)との向き合い方(9月17日)
最新テクノロジーの意外な処方箋
【最新テクノロジーの意外な処方箋】
昆虫と退屈なことについて(9月16日)
台湾企業が席巻する電子製品製造
台湾企業が席巻する電子製品製造
蔓延する市場の不透明感、不況の今だからこそ考える生産アウトソーシング(10月10日)
IT マネジメント
IT マネジメント
「後戻りできない」 Windows 7(10月10日)
DevX
DevX
XQueryの制御構造の活用(10月10日)
最新ハイテク講座
最新ハイテク講座
ハイビジョン対応へ、どこまで進化するのか「レコーダー」(10月10日)
百式のネットビジネス研究
百式のネットビジネス研究
あなたの Blog にライブサーチを設置してくれる「Sikbox」(10月10日)
週刊-サイト別アクセス状況データ
週刊-サイト別アクセス状況データ
ビデオリサーチインタラクティブ調査(月間インターネットオーディエンスデータ)(10月9日)
検索エンジンマーケティング
検索エンジンマーケティング
SEO は外部と内部どっちの対策が効果的?(10月9日)
気になるトレンド用語
気になるトレンド用語
はてなブックマークが変わる!そもそもブラウザのお気に入りと何が違うの?(10月8日)
e-Japan 先端テクノロジー解説
e-Japan 先端テクノロジー解説
行政サービスのマルチチャネル化について(10月8日)
ウチのサイトを SEO
ウチのサイトを SEO
ちゃんと title つけていますか?(10月8日)
海外のインターネットコムアメリカ韓国ドイツトルコ
Copyright 2008 Jupitermedia Corporation All Rights Reserved.http://www.internet.com/