WebTutorial

WebTutorial

【サイト管理】Web ログ解析−1

Glenn Fleishman
 
トラフィック解析は、ユーザーがサイトのページを行ったり来たりする様を眺められるので、楽 しい仕事には違いないが、同時に情報過剰になる恐れもある。

私の会社では毎月クライアントの Web サイト ビジターのログをとっているが、それは実際に Web サイト自身が保有する情報量より約5、6倍も多い。

商品として販売されているログ解析ツールは、サイトの多くにとっては理想的ではない。 実際にソフトウェアを実行し、リレーショナル データベースと情報をやり取りするローカルサ イトのマシンで行う「ローカル」解析用のソフトウェアの値段は、200、300 ドルから4000、5000ドルする。

また、定期的に(場合によっては1時間ごとに)、解析とレポートを生成するリモートサイトに ログファイ ルを渡さなければならないような、NetCount とかInternet Profiles (I/Pro)といったサー ビスに、おそらく月何千ドルも支払わなければならなくなるだろう。

商品として販売されているツールが自分の会社の役に立つかどうかは、もっぱら、どの程度高度 にカスタマイズされた解析が必要であるかにかかっている。 かなり一般的な解析でいいのなら、ローカルサイトでデータ解析に使えるシンプルなシェアウェ アがたくさんある。 包括的にユニークビジターを解析するのなら、商用ツールに移行するか、あるいは社内で独自開 発してもいい。

このコラムでは、すでにあるリソースと、ここで紹介するコードのサンプルを使って、手っ取り 早く解析を行 う方法を紹介する。また、ユーザー解析用デイトスタンプの判読の仕方、サイト情報に関して、 アルゴリズムに沿った考え方を紹介する。最終的には商用ツールを選ぶことになるにせよ、予備 知識 はあるにこしたことはない。

ログフォーマット

何種類かのログフォーマットがあるが、ここでは、ほとんどの Web サイトが使っているCLF( Common Log Format)のみを扱う。 Open Market、Netscape、Microsoft Internet Information Server のようなサーバーはち ょっと違ったフォーマットで情報のログをとっているが、基本的には同じように機能する。

CLF のフィールドに加え、ビジターのブラウザによって明らかにされる情報があり、それは、 どんなユーザーがサイトを訪れているかが分かるので、ありがたい。

  • RefererURL:REFERER_URLクライアント変数の中身。ユーザーがサイトを訪れる直前にブ ラウザがいたロケーションURL を返す。

  • Client type:HTTP_USER_AGENT クライアント変数の中身を保持。これには、ブラウザ 名、バージョン、ユーザープラットフォームが含まれる。

  • Cookie:HTTP_COOKIE 変数の中身。ユニークユーザーを決定する永続的トークンで、ブ ラウザとサーバーがセッション中にやり取りする。 クッキーはある特定のブラウザがないと作用しない。Netscape Navigator はクッキーに完 全に対応しているものの、その他のブラウザは Netscape ほどには対応していない。

Interse Corp. は、CLF がこれら3つの変数を含むことができるよう、独占的な拡張を 追加し た企業である。すなわち、Interse Extended Log Format は3つのフィールドを参照す るのに 、「 referer」「browser」「cookie」という名前を使う。

この3つのフィールドは、以下の例では、Inters? Extended Log Countにおいて、バ イトカウ ントに続いて現れる。

spaghetti.west.edu - - [30/Feb/1996:06:09:53 -0800] "GET/film/reviews/D/dangerous.minds.horton.html HTTP/1.0" 200 3828 "http://search.yahoo.com/bin/search?p=dangerous+minds" "Mozilla/1.22 (Windows; I; 32bit)" "211.63.0.255.8445454454"

私の会社では、CERN 3.0 サーバーがこのフォーマットに対応するようにしたが、それはほかの 目的にも 役立っている。

ビジットとは何か

Web での広告販売の経験があるなら、広告におけるユニークインプレッションとは何か、とい う疑問にぶち当たったことがあるだろう。あるいは、もっと一般的に、ユニークビジットとは何 か。

これらが何を指すのか、かなり混乱しているようだ。普通にネットで使われる言葉を使って表現 すれば、次のようなことだろう。

  • ビジター:登録やクッキーで追跡されうるユニークな個人。
  • ビジット:Web サイトへのユニークなトリップで、ビジターがサイトを眺めている期間に よって限定。

それで、「実際には何人がサイトを訪れているの?」と聞かれたら、1日あたりのユニー クビジットという点において、ある程度の自信を持ってその質問に答えることができるだろう。

ユーザーに登録を要求するサイトだと、LOGNAME 変数で、どんなログフォーマットだろうが、 (デイトスタンプとLOGNAME で)既存のユーザーのユニークビジットを追跡できる。ビジター に登録を要求しないサイトの場合、ユニークビジットを追跡する上で、多く分けて2つの選択肢 がある。

  • クッキーによる:サーバーがクッキーを割り当てている場合は、クッキー対応のブラウ ザの普及率によるが、リピートユーザーの90%以上が追跡されうるクッキーをもつことになる。 クッキーには 期間を設定できるので、特定のユーザーの追跡データに期限をつけられる。 クッキーと登録情報の照合にデータベースを使わなければ、個々のユーザーについて何 も知り得ない。しかし、ユニークビジターのユニークビジットに関する情報は得ることができる 。

  • ホスト名、あるいは IP ナンバーによる:これは信頼度はかなり落ちるが、ネット上の大 多 数のサイト、特にオンラインサービス会社は、これで同時ユニークユーザーを識別できるだろう 。America Online、Netcom、その他のサービスからの同時ユーザーは、ユニークなホスト名か IP ナンバーをもっている。この方法ではユニークビジットのみが分かるのであって、ユニーク ビジター数は把握できない。

クッキーやホスト名/IP ナンバーでユニークビジットを追跡するには、タイムスタンプ解析が 必要だ。

続く 「【サイト管理】Web ログ解析−2」


New Topics

Special Ad

“超高速無線 LAN 時代”の幕開け--新規格 11ac(Draft)に対応したバッファロー最新ルーターの潜在能力を試す
“超高速無線 LAN 時代”の幕開け--新規格 11ac(Draft)に対応したバッファロー最新ルーターの潜在能力を試す バッファローは次世代無線 LAN 規格 IEEE802.11ac(Draft)通信速度最大 1,300Mbps 対応無線 LAN ルーター「WZR-1750DHP」を3月下旬に販売開始。今回、同機器を入手できたので、使用感や便利な機能についてレポートしたい。⇒詳細記事へ

Hot Topics

IT Job

Interviews / Specials

Follow japan.internet.com

Popular

Access Ranking

Partner Sites