japan.internet.com The Internet & IT Network


RSSニュース検索
カテゴリ
> トップページ
> Webビジネス
> Eコマース
> Webファイナンス
> Webマーケティング
> パブリック
> Webテクノロジー
> 携帯・ワイヤレス
> Linux Today
> Linux Tutorial
> J.I.C.ブログ
キャリア
> 転職ならen
> 派遣ならen
> アルバイトならen
> IT求人情報
ヘッドライン
> 今日のヘッドライン
> 週間ヘッドライン
Special Link
> ロレックス
> フォトコミュニティ
> ストックフォト
> クリップアート
> イラスト
> フェリカ
> Web2.0
イベント&セミナー
> イベントカレンダー
> 書評「IT の耳」
> 出張・接待検索
> ニュースガジェット 注目
無料ニュースメール
> 新規登録
> 変更・解除
> オプトインメールの登録・変更・解除
インフォメーション
> パートナーサイト
転職ならエン
就職ならen
求人ならen
履歴書ならen
アルバイトならエン
CRM/SFAならオラクル
> グループ会社
株式会社アエリア
(株)サンゼロミニッツ
株式会社エアネット
> お問い合わせ
> 広告掲載について
> リンクについて
> 著作権について
> その他お問い合わせ
> 利用規約
> 個人情報保護方針
> 会社概要地図
Webテクノロジー 2005年9月14日 09:00
Webテクノロジー・バックナンバー
HyperEstraier のサーバーサイド P2P による分散検索

著者: アリエル・ネットワーク プリンター用 記事を転送
2005年9月14日 09:00 付の記事
国内internet.com発の記事
このエントリーを含むはてなブックマーク この記事をクリップ! Buzzurlにブックマーク Yahoo!ブックマークに登録 newsing it!

前回から少し時間があいてしまいましたが、 今回からこのコラムの執筆者も変わり、 今後はもう少し技術的な話やとんがったソフトウェアについて紹介していきます。

今回は、少し毛色を変えて、 全文検索技術ソフトウェアの中で、 P2P による分散検索を実現する HyperEstraier について紹介してみたいと思います。

■HyperEstraier の概要

HyperEstraier は、 情報処理推進機構(IPA)による2004年度第2回未踏ソフトウェア創造事業の支援を受けて開発された全文検索エンジンです。 インデックスを使い、大量の文書を効率よく検索することができます。

オープンソースの全文検索エンジンとしては Namazu が有名ですが、 HyperEstraier も、 GNU Lesser General Public License に基づいて配布されるフリーソフトウェアです。 ライブラリの形式で実装されていますので、 各種アプリケーションに組み込むことが容易にできるという特徴があります。

全文検索のためのインデックスの作成方法は、 大きく分けて、 形態素解析を使ったわかち書きによる方法と、 Nグラム法よる方法があります。

わかち書きによる方法では、 あらかじめ決まった辞書により、キーワードの抽出を行います。 このため、辞書にない単語は検索からもれることがあります。 一方のNグラム法では、 辞書を使わずにインデックスを作成します。 このため、インデックスのサイズは大きくなりますが、 辞書にない単語でも検索洩れは発生しない特徴があります。

■HyperEstraier の P2P 機能

HyperEstraier のもうひとつの大きな特徴として、 P2P 技術を利用した分散検索機能があります。

HyperEstraier の P2P では、 検索を依頼するクライアントと、 実際に検索を行うサーバーに分かれています。 この仕組自体は今まであるクライアント/サーバーモデルと同一です。

P2P としてネットワークを形成しているのは、 HyperEstraier のサーバー群です。 以前、このコラムで紹介したソフトウェアは、 クライアントサイドでの P2P の利用が多くありましたが、 HyperEstraier はサーバーサイドでの P2P 技術になります。

クライアントは、HyperEstraier サーバーのひとつに検索を依頼します。 サーバーAに依頼した場合は、 サーバーAで検索が実行され、 同時にサーバーAが接続してるサーバーBやサーバーCに、 サーバーAが検索を依頼します。

クライアントは、 サーバーAの検索結果と、 サーバーBやサーバーCなどの複数のサーバーでの検索結果を、 一度に受け取ることができます。

特にこのシステムの特徴が生きるのが、 大量の文書を扱う場合です。

検索速度はインデックスのサイズが増えるに従って遅くなっていきます。 そのため、1,000万件の文書をひとつのインデックスで処理するより、 100万件ごとに10個のサーバーで同時に検索を行うほうが効率的になります。 また、検索処理を実行する時のサーバーの CPU 負荷も分散されるため、 効率よく大量の文書を処理することができるようになります。

■経路選択と信頼度

多くの P2P アプリケーションでは、 お互いの P2P ノード同士の接続は自動的に行われています。 つまり、ユーザーは意識する必要はありませんでした。 HyperEstraier は接続先を明示する必要があります。 これは、一般ユーザーが設定しなければいけないクライアントサイドのアプリケーションと違うところです。

また、接続している方向も重要になってきます。 サーバーAからサーバーBに接続している場合、 サーバーAはサーバーBに検索処理を依頼することができますが、 サーバーBはサーバーAに検索処理を依頼することはできません。 もちろん、双方向に接続設定をすれば、 サーバーBからサーバーAに処理を依頼することが可能になります。

P2P 的であることの利点としては、 サーバーAがサーバーBに、 サーバーBがサーバーCに接続している場合、 サーバーAが検索をサーバーBに依頼すると、 続いてサーバーBは接続しているサーバーCに自動的に処理を依頼することができます。 サーバーAはサーバーCの存在を知らなくても、 必要なサーバー群で検索処理を行うことができます。

サーバーAは他のサーバー群に依頼した検索の結果を受け取ると、 すべての結果をマージしてクライアントに検索結果を返します。

検索の順位付けは、 全文検索ではとくに重要です。 順位付けは、最初に、 実際に検索を行ったサーバー上で行われます。 サーバーAは他のサーバーに依頼した検索結果をフラットな状態で受け取ります。 その後に、各サーバーと自サーバーの間の信頼度係数をもとに、 全体の順位付けを調整していきます。

インターネットでの分散検索アプリケーションを実装した場合、 スパム的な情報を提供するサーバーなどは、 信頼度を低くすることで、 検索結果の順位が低くなり、 最終的には、P2P ネットワークから事実上排除することができるようになります。

相手ノードとの信頼度は、 クライアントとサーバーAの間で、 ユーザーからのフィードバックを元に自動的に重みづけされていきます。 フィードバック自体は、 HyperEstraier ではなく、 それを利用して作成されたアプリケーションが行う必要があります。 フィードバックは、 ユーザーがそのファイルを開くという処理でも実現できます。 また、ボタンを押して評価を設定するなど、 明示的なアクションで行うこともできます。

このようにサーバーサイドで利用される P2P システムは、 クライアントサイドの P2P とは一味違ったものがあります。 次回は、この HyperEstraier を利用して開発が進められている mod_estraier について紹介してみます。(執筆:大谷 弘喜)








関連記事
  • P2P の分類再び(2)―同期通信 P2P と非同期通信 P2P(その2)
  • P2P の分類再び(2)―同期通信 P2P と非同期通信 P2P(その1)
  • P2P の分類再び(1)
  • P2P 技術:オーバーレイネットワーク(3)
  • P2P 技術:オーバーレイネットワーク(2)


  • 関連テーマ
  • P2P
  • スパム
  • オープンソース


  • ★最新トップニュース
    国内 ミニノート「HP 2133」、販売再開するもまた売り切れ(Webビジネス 7月25日 12:50)
    日本 HP は2008年7月23日、同社にてミニノート PC「HP 2133 Mini-Note PC」の販売を再開すると発表したが、オンラインストアではわずか1日で再び販売終了となった。
    海外 Sun と Joyent、ソーシャル アプリケーション開発を支援(Webテクノロジー 7月25日 12:30)
    Sun Microsystems と Joyent が提携して、『Facebook』および『OpenSocial』向けのソーシャル アプリケーション開発を支援するプログラムを開始した。
    海外 企業向けサービスの強化を図る NetSuite(Webビジネス 7月25日 12:20)
    NetSuite は22日、CRM アプリケーション『CRM+』と、サービスとしてのプラットフォーム (PaaS)『NetSuite Business Operating System』(NS-BOS) の最新版を発表した。
    海外 Intel、SoC 市場への参入を明確化する新製品群を発表(Webテクノロジー 7月25日 12:20)
    Intel は、『Atom』プロセッサ、および『Pentium M』プロセッサを基本とする一連の SoC (システムオンチップ) 新製品を発表した。
    海外 Oracle、包括的アクセス管理ソリューション スイートをリリース(Webビジネス 7月25日 12:10)
    Oracle が、新プライバシー関連法案『FACTA』(公正で正確なクレジット決済法) の遵守を支援する『Oracle Access Management Suite』をリリースした。
    トピックス
    > オススメのIT系求人情報【毎週月曜日更新】
    footer_301.gif


    リサーチ
    > デイリーリサーチDLサイト
    > OnlineResearchPortal (リサーチデータバンク)
    > モバイルリサーチ with goo
    footer_301.gif
    キーワード
    > iPhone > Youtube
    > Google > モバイルノート
    > 半導体 > ウィルコム
    > テーマ一覧はこちら
    footer_301.gif
    セミナー情報
    > 第1回インターネットコムマーケティングセミナー「新規クライアントを効率的に獲得する Web マーケティング手法とは」(3月26日)多数のご参加ありがとうございました
    footer_301.gif
    デベロッパー
    > DevX
    > CodeGuru
    > developer.com
    footer_301.gif
    日本Oracle
    footer_301.gif
    j.i.c.ブログ
    ブログ一覧
    デスマーチからの脱却 【デスマーチからの脱却】
    独自ドメインでiPhoneのメール送受信(7月25日)
    データメーション 【データメーション】
    本物のスパム王様はお名乗り出ください(7月24日)
    Graphic Design Forum 【Graphic Design Forum】
    興味深い(?)90年代 (7月24日)
    エンジニアの独り言 【エンジニアの独り言】
    新入社員が配属される季節ですね。(7月23日)
    ジュピターメディア創設者がITを斬る 【ジュピターメディア創設者がITを斬る】
    Alan を探せ(7月18日)
    ベンチャー専門家の目利きブログ「なぜこの企業は伸びるのか?」 【ベンチャー専門家の目利きブログ「なぜこの企業は伸びるのか?」】
    「『訪問歯科診療』のパイオニア」/デンタルサポート株式会社(7月15日)
    footer_301.gif
    最新コラム一覧
    CodeGuru CodeGuru

    Visual C++ 2008 Feature Pack: MFCの強化 (2)(7月25日)
    最新アフィリエイト事例にみる成功の法則 最新アフィリエイト事例にみる成功の法則

    メディアのニーズ 〜アフィリエイトに対する思い〜(7月25日)
    最新ハイテク講座 最新ハイテク講座

    Blu-ray がノート PC でも快適に!インテル「Centrino 2」(7月25日)
    百式のネットビジネス研究 百式のネットビジネス研究

    究極にシンプルなタスク管理ツール「now do this」(7月25日)
    週刊-サイト別アクセス状況データ 週刊-サイト別アクセス状況データ

    ビデオリサーチインタラクティブ調査(月間インターネットオーディエンスデータ)(7月24日)
    IT マネジメント IT マネジメント

    Google Trends で見る IT のトレンド(7月24日)
    ハードウェアから見たデータベース ハードウェアから見たデータベース

    表計算ソフトの計算を支える仕組(7月24日)
    「IT の耳」 「IT の耳」

    【書評】ネットオークションで騙す。―全米を揺るがした絵画詐欺犯の告白―(7月24日)
    検索エンジンマーケティング 検索エンジンマーケティング

    ピンポイントマーケティングにおける P4P(検索連動型広告)の“当たり前”(7月24日)
    Eメールマーケティング事情 Eメールマーケティング事情

    大量送信のスパムからターゲット絞り込みスパムメールへ(7月23日)
    footer_301.gif
    専門チャンネル
    > セキュリティチャネル > テレコムチャネル
    > サーチエンジンウォッチ
    footer_301.gif
    海外のインターネットコム アメリカ韓国ドイツトルコ
    関連企業のサイト:ストックフォト イラスト ネットストリート ホテル予約サイト タウン情報 出張 事業継承 シミュレーション トランクルーム 優待映画チケット 田舎暮らしガイド オリジナルデザインTシャツ ニタコエ
    Copyright 2008 Jupitermedia Corporation All Rights Reserved. http://www.internet.com/
    space.gif space.gif