japan.internet.comThe Internet & IT Network
RSS
  • ニュース
  • コラム
  • リサーチ
  • ヘッドライン
  • 特集
  • ブログ
  • プレスリリース
  • 専門チャンネル
  • イベント
  • ランキング
  • ニュースメール
2008年9月9日
文字サイズ文字サイズ小文字サイズ中文字サイズ大
WebTutorial2000年10月4日 00:00

【サイト管理】Web ログ解析−1

海外海外internet.com発の記事
  • このエントリーを含むはてなブックマーク
  • この記事をクリップ!
  • Buzzurlにブックマーク
  • Yahoo!ブックマークに登録
  • newsing it!
トラフィック解析は、ユーザーがサイトのページを行ったり来たりする様を眺められるので、楽 しい仕事には違いないが、同時に情報過剰になる恐れもある。

私の会社では毎月クライアントの Web サイト ビジターのログをとっているが、それは実際に Web サイト自身が保有する情報量より約5、6倍も多い。

商品として販売されているログ解析ツールは、サイトの多くにとっては理想的ではない。 実際にソフトウェアを実行し、リレーショナル データベースと情報をやり取りするローカルサ イトのマシンで行う「ローカル」解析用のソフトウェアの値段は、200、300 ドルから4000、5000ドルする。

また、定期的に(場合によっては1時間ごとに)、解析とレポートを生成するリモートサイトに ログファイ ルを渡さなければならないような、NetCount とかInternet Profiles (I/Pro)といったサー ビスに、おそらく月何千ドルも支払わなければならなくなるだろう。

商品として販売されているツールが自分の会社の役に立つかどうかは、もっぱら、どの程度高度 にカスタマイズされた解析が必要であるかにかかっている。 かなり一般的な解析でいいのなら、ローカルサイトでデータ解析に使えるシンプルなシェアウェ アがたくさんある。 包括的にユニークビジターを解析するのなら、商用ツールに移行するか、あるいは社内で独自開 発してもいい。

このコラムでは、すでにあるリソースと、ここで紹介するコードのサンプルを使って、手っ取り 早く解析を行 う方法を紹介する。また、ユーザー解析用デイトスタンプの判読の仕方、サイト情報に関して、 アルゴリズムに沿った考え方を紹介する。最終的には商用ツールを選ぶことになるにせよ、予備 知識 はあるにこしたことはない。

ログフォーマット

何種類かのログフォーマットがあるが、ここでは、ほとんどの Web サイトが使っているCLF( Common Log Format)のみを扱う。 Open Market、Netscape、Microsoft Internet Information Server のようなサーバーはち ょっと違ったフォーマットで情報のログをとっているが、基本的には同じように機能する。

CLF のフィールドに加え、ビジターのブラウザによって明らかにされる情報があり、それは、 どんなユーザーがサイトを訪れているかが分かるので、ありがたい。

  • RefererURL:REFERER_URLクライアント変数の中身。ユーザーがサイトを訪れる直前にブ ラウザがいたロケーションURL を返す。

  • Client type:HTTP_USER_AGENT クライアント変数の中身を保持。これには、ブラウザ 名、バージョン、ユーザープラットフォームが含まれる。

  • Cookie:HTTP_COOKIE 変数の中身。ユニークユーザーを決定する永続的トークンで、ブ ラウザとサーバーがセッション中にやり取りする。 クッキーはある特定のブラウザがないと作用しない。Netscape Navigator はクッキーに完 全に対応しているものの、その他のブラウザは Netscape ほどには対応していない。

Interse Corp. は、CLF がこれら3つの変数を含むことができるよう、独占的な拡張を 追加し た企業である。すなわち、Interse Extended Log Format は3つのフィールドを参照す るのに 、「 referer」「browser」「cookie」という名前を使う。

この3つのフィールドは、以下の例では、Inters? Extended Log Countにおいて、バ イトカウ ントに続いて現れる。

spaghetti.west.edu - - [30/Feb/1996:06:09:53 -0800] "GET/film/reviews/D/dangerous.minds.horton.html HTTP/1.0" 200 3828 "http://search.yahoo.com/bin/search?p=dangerous+minds" "Mozilla/1.22 (Windows; I; 32bit)" "211.63.0.255.8445454454"

私の会社では、CERN 3.0 サーバーがこのフォーマットに対応するようにしたが、それはほかの 目的にも 役立っている。

ビジットとは何か

Web での広告販売の経験があるなら、広告におけるユニークインプレッションとは何か、とい う疑問にぶち当たったことがあるだろう。あるいは、もっと一般的に、ユニークビジットとは何 か。

これらが何を指すのか、かなり混乱しているようだ。普通にネットで使われる言葉を使って表現 すれば、次のようなことだろう。

  • ビジター:登録やクッキーで追跡されうるユニークな個人。
  • ビジット:Web サイトへのユニークなトリップで、ビジターがサイトを眺めている期間に よって限定。

それで、「実際には何人がサイトを訪れているの?」と聞かれたら、1日あたりのユニー クビジットという点において、ある程度の自信を持ってその質問に答えることができるだろう。

ユーザーに登録を要求するサイトだと、LOGNAME 変数で、どんなログフォーマットだろうが、 (デイトスタンプとLOGNAME で)既存のユーザーのユニークビジットを追跡できる。ビジター に登録を要求しないサイトの場合、ユニークビジットを追跡する上で、多く分けて2つの選択肢 がある。

  • クッキーによる:サーバーがクッキーを割り当てている場合は、クッキー対応のブラウ ザの普及率によるが、リピートユーザーの90%以上が追跡されうるクッキーをもつことになる。 クッキーには 期間を設定できるので、特定のユーザーの追跡データに期限をつけられる。 クッキーと登録情報の照合にデータベースを使わなければ、個々のユーザーについて何 も知り得ない。しかし、ユニークビジターのユニークビジットに関する情報は得ることができる 。

  • ホスト名、あるいは IP ナンバーによる:これは信頼度はかなり落ちるが、ネット上の大 多 数のサイト、特にオンラインサービス会社は、これで同時ユニークユーザーを識別できるだろう 。America Online、Netcom、その他のサービスからの同時ユーザーは、ユニークなホスト名か IP ナンバーをもっている。この方法ではユニークビジットのみが分かるのであって、ユニーク ビジター数は把握できない。

クッキーやホスト名/IP ナンバーでユニークビジットを追跡するには、タイムスタンプ解析が 必要だ。

続く 「【サイト管理】Web ログ解析−2」

最新トップニュース
Graphic Design Forum
【Graphic Design Forum】
あなたならどうする - 倫理にかかわる問題 (10月14日)
データメーション
【データメーション】
サルにも負けるかも(10月14日)
ベンチャー専門家の目利きブログ「なぜこの企業は伸びるのか?」
【ベンチャー専門家の目利きブログ「なぜこの企業は伸びるのか?」】
「お客様に使われる商品開発は『1%の閃きと99%の努力』から!」/株式会社エス・アンド・ケイ(10月10日)
エンジニアの独り言
【エンジニアの独り言】
得体の知れない情報(?)との向き合い方(9月17日)
最新テクノロジーの意外な処方箋
【最新テクノロジーの意外な処方箋】
昆虫と退屈なことについて(9月16日)
海外のインターネットコムアメリカ韓国ドイツトルコ
Copyright 2008 Jupitermedia Corporation All Rights Reserved.http://www.internet.com/