情報検索の技術−Web 情報検索エンジンの活用1.Web 情報検索エンジンの利用
欲しい情報をタイムリーに入手するための効率的な情報収集の方法は、情報検索を「意味的、目的的」に支援してくれる検索エンジンの活用にある。 WWW 上で検索サービスを提供する検索サイト(検索ポータル)のシステムを、検索エンジン(サーチエンジン:search engine)と呼ぶ。検索サイトでは CGI を介して、利用者が指定した検索キーワードを自分が蓄積したデータベースと突合し、一致した Web ページの URL を目的候補として抽出、引用文とともに結果として返す。結果のうち、求める情報に最も近い(と思われる)ものを利用者がクリックすると、その Web ページが表示される。 WWW の検索エンジン技術は、短期間で急速に成長した。広告収入に頼る商用ベースで運用するためには支配的なシェアが収入に直結することから、ニュースや天気、生活情報案内、掲示板等のネットコミュニティ、ページカスタマイズや無料メールボックスなどによるパーソナルサービス機能など機能拡充とサービス拡大が行われ、『Web 総合ポータル』へと変身が進んだ。Infoseek、Lycos、Excite、AltaVista そして今や Yahoo! が覇者となった。 こうした中に登場した Google(1999)は、極端に簡素なページレイアウトで当初から検索ポータルのみに特化した検索システムである。独自のハイパーリンク構造分析アルゴリズム PageRank を実装し、主要な Web 総合ポータルサイトの検索エンジンとして公式に採用されたことから、2002年8月には検索エンジン市場シェアの過半数を得るに到った。 現在95%の検索エンジンがハイパーリンク構造の解析手法を採り入れている。「Google キラー」を標榜する WiseNut や新興の TEOMA が、コンテキストベースのハイパーリンク分析で検索の適合性を高め、Google の人気に肉薄している。WWW の利用者は複数の検索エンジンを上手に使い分けることに習熟しつつある、という。 2.検索エンジンの検索特性 Web 上の分散デジタルコンテンツ検索技術では、従来の演算子や適合順位付け出力、あいまい検索、自然言語処理、多言語検索に加え、マルチメディア検索、高度なリンク検索、更新ページの収集、ページタイプ判定、などが可能となった。さらにシソーラス(語彙)辞書による複合条件検索(同義、広義/狭義、多義、あついは概念、あいまい、推論など)も、知識構造化された分散デジタルコンテンツによって可能となりつつある。 検索システムの検索特性は、自身のデータベースの格納形態と構造に依存する(代表例:1)ディレクトリ型、2)ロボット型、3)知識ベース型(メタ検索型)、4)P2P 型)ディレクトリ型は新しく作られた Web ページを主として登録制で収集し、階層構造のカテゴリリストを備えることで、主題からの階層的な探索を可能とする。ロボット型は「スパイダー」と呼ぶエージェント(プログラム)で世界中のサーバーを自動的に定期巡回し、情報収集、Web ページの内容全文を検索対象として索引付けする。 知識ベース型は最近登場したメタ検索型エンジンで、新顔の MetaCrawler で代表される。自身のデータベースを持たず、ユーザの検索条件を複数の検索エンジンに送って検索させ、結果を加工して返す。P2P 型はピアのネットワーク上でリレー式にピア検索を行い、見付けたデータの索引情報を検索元のピアへ返す。ハイパーリンク解析などの手法は必要なく、参照頻度の高いコンテンツほど自動的に高いランクに配置される。グリッド コンピューティング技術を P2P 型のスパイダーで実装した Grub が最近稼働を開始した。 3.検索エンジンの技術課題 検索効率から見ると4つの方式は一長一短があり、時に複数の組み合わせで使われる。 ディレクトリ型は目的別検索に適しており、検索精度は高い。反面キーワードが Web ページ作成側で登録されるため、未登録ページは検索できないなど情報量が少なく、ロボット型に比べて検索率は低い。ロボット型は収録データが大規模で、相当数の Web ページ(Google で約18億ページ)を対象に全文検索できる反面、ゴミ情報も拾ってきてしまう確率が高く、求める情報を絞り込むのに膨大な時間を要することがある。 知識ベース型は目的に合う絞り込みを自動で行うが、個別に検索エンジンが用意している検索オプションの利用が制限されるなどの制約がある。P2P 型では大規模な索引データベースもハイパーリンクの追跡・解析も要らないが、Web ページのコンテンツを一意に表現するメタデータ規格の制定に難儀している。 共通する最大の解決課題は、全文検索の効率と精度を飛躍的に向上させることである。これは企業や行政機関で広く使われている、スパイダーを使わないタイプの情報検索エンジン(OpenText や Namazu 等)でも何ら変わらない。WWW について言えば、スパイダーでは到達できないWebページが全世界で40億ページもあるということが問題だ。Barbasi(「新ネットワーク思考」)によれば、WWW のネットワークトポロジーを構成する「ハイパーリンクの一方向性」という基本技術の特性が、到達できない(戻れない)多くの Web ページを生んでいる、という。 限界を打破するための技術探求がコミュニティレベル、さらには国家レベルで行われており、コンテンツのセマンティック Web 化や P2P 型の超(双方向)ハイパーリンクが有力候補として浮上している。それらが実装され普及するまでは、Web 技術者が注意深くリンク漏れが起きないような Web サイトを構築し、現実と妥協しながら過ごすしかなさそうだ。 ところで日本では、国民と行政の知的公共財たる行政情報としての分散デジタルコンテンツが、こうであってはならない。官民連携ポータル等で情報公開の推進と説明責任の徹底を目指すなら、検索エンジンの機能や性能にもっと注目が集まってしかるべきだろう。
関連記事 最新トップニュース
|
|