Webマーケティング2004年4月23日 00:00
文字サイズ文字サイズ小文字サイズ中文字サイズ大

Tim Bray の検索エンジンエッセイ

この記事のURLhttp://japan.internet.com/wmnews/20040423/8.html
著者:Chris Sherman
海外internet.com発の記事
検索をよく理解している人でも、 それを文章で見事に表現できる人は少ない。 検索エンジンのパイオニア、Tim Bray は、 それができる数少ない一人だ。 彼は、検索技術を徹底的に理解したい人には必読の、 とてもすばらしいエッセイをシリーズで書いている。

Bray の職歴にはたくさんの肩書きが並んでいる。 一番有名なのは、 XML 仕様の共作者としてだが、 Web の初期には最初の検索エンジンのひとつ、 消滅して久しい Open Text Index の制作と運営に深くかかわっていた。

現在 Bray は、 ビジュアル検索インターフェイスで有名な Antarctica Systems の CTO だ。

彼の一連のエッセイ、 『On Search, the Series』は、 検索エンジン技術の教科書とも言えるものだ。 とても読みやすいうえに、 Bray 個人の見識や意見も書いている。

シリーズの概要で彼は以下のように述べている。

「私は検索が好きだし、 経験から得た教訓は書き留めるに値すると思ったので、これらのエッセイを書いた。 そればかりでなく、 世界の一部を変えたいと思ったのだ。 つまり、基本的に世界中のすべてコンピュータが、 役に立つ、高速で効率のいい、 操作の簡単な検索ソフトウェアにめぐり合えるようにしたかったからだ」

15回のシリーズで、 簡単な概要と目次が付いている。

シリーズの初回は、 検索ビジネスの背景にあるものと、その歴史についてのすばらしい話だ。 その中からちょっと引用してみよう。

「事実、検索方法に関する基礎科学は70年代以来それほど進化を遂げてない」

次のエッセイでは、 すぐに検索エンジンの構造や技術に進まずに、 何が検索されるのかを考察する。 1994年後半から1996年初頭、 Open Text Index でのユーザーの検索ログを分析することで、 Bray はユーザーの情報ニーズを見抜き、 「それ以外のすべてをあわせたものよりも大きく浮かび上がる2つの教訓」を得た。

2つの教訓?  このエッセイを読めばそれが何であるか納得できるだろう。

次に、Bray は検索エンジンの基本を論じている。 検索エンジンのおなじみの機能、コスト、利点などだ。 ここで少々技術的な話になるが、 検索エンジンが「結果」を表示する際の、 基本的なデータ構造とアルゴリズムに対する理解を得ようとする努力は、 する価値がある。

検索エンジンの効果はどうやって測るのだろうか?  あるシステムが改善されている、 とか、 システムが2つあったとして、 2つのシステムに重要な違いがあることがわかるだろうか?  ひとつは、 検索パフォーマンスのもっとも一般的な尺度である「精度」と「再現率」を測ることだ。 次のエッセイでは、 精度と再現率は有効だが、 本当にいい尺度としては限界があることも説明している。

「ここに問題がある。 ユーザーが本当にやりたいのは語句の検索ではない。 ユーザーは、理念、概念、解決法、答えを探しているのだ」。 5番目のエッセイで Bray はキーワード分析について検討し、 検索エンジンが意味を抜き出すために、 局面、頻度、語句の強調をどのように見ているかを説明している。 このエッセイはやや暗い雰囲気で、 Bray は検索エンジンが将来より「利口に」なるかについては、 楽観視していない。

もじもじ語とインターフェイス

6回目は「もじもじ語」に注目している。 言語というものは本質的に複雑なもので、 あいまいな場合が多い。 これが検索エンジンにとっては主要課題だ。 おもしろいことに Bray は、 検索システムにとって、 この語彙の混乱が驚くほど適度な結果をもたらしていると結論している。

次は回り道をして、 Bray は、 Web が登場したばかりの頃に作った珍しい検索ユーザーインターフェイスを紹介し、 それが当時成功しなかった理由についての哲学的見解を述べている。

それから次のエッセイでは検索の構造に戻り、 「意味もなく頻繁に現われるが情報をほとんど伝えない」ため、 多くの検索エンジンが無視するようになった一般的な語、 「ストップワード」について考察している。

メタデータについてのエッセイでは、 Bray はメタデータを非常に広く(しかしきわめて正確に)定義し、 Yahoo! やGoogle などの成功した検索エンジンが、 どのようにそれを有利になるように利用しているかを述べている。 これにはびっくりする読者もいるかもしれない。 「両者とも、 他のライバルより優れたテキスト検索技術があったわけではない」と Bray は書いている。 これは反対する人もいるかもしれない。 メタデータとは何か、 どこから出てきたのか、どうやって使うのかは、 読むに値する。

国際化に焦点を当てているのが、10回目のエッセイだ。 英語以外の言語で、 アルファベットにないキャラクタで書いた場合、 どうなるか?  これは、検索エンジンにとって主要な課題のひとつで、 これからますます重要になってくる。

次の話題は結果ランキングで、 Bray は批判的な目で検討している。 巨大な DB(例えば検索エンジンの Web インデックス)にあるたくさんのものに対し、検索結果のリストのトップに何を載せるのか、 どうやって決めるだろう?  Bray は検索結果ランキング(検索のほとんどでトップ2、3以外)の現状はあまり良くないと結論付けている。 しかし、 彼が有望視している技術がいくつかあり、現在調査中とも書いている。

次のエッセイでは、 Bray は文字通り検索ボックスの外側を考察している。 検索インターフェイスの現状を説明し、 もっといいユーザー体験ができるかもしれないと彼が思う、 別のアプローチを提案している。

XML 仕様書の共作者としては驚くことでではないが、 Bray は XML 検索論を含めている。 XML は次第にコンピュータで行う作業のほぼすべてに忍び込んでいる。 Bray によると、 XML 検索について考えることは重要だそうである。

「ロボット村見学」では、 Web を巡回して情報を発見してから検索エンジンに戻ってインデックスに載せるクローラーやスパイダー、またその他のものに注目している。

シリーズの締めくくりに Bray は、 検索が将来向かうべきモデルとコンセプトフレームを提案している。

検索技術について書かれた技術的な本のほとんどは、 専門用語が山積みされ、 不可解な方程式の羅列とロジックが堅く編みこまれている。 『On Search, the Series』は、 常日頃頼りされている検索ツールを、 別のアプローチで説明してくれる。 おまけに、 Web 検索のパイオニアだと誰もが認める著者のコメントと、 体験秘話が満載だ。

Copyright 2008 Jupitermedia Corporation All Rights Reserved.http://www.internet.com/