![]() ![]() ![]() ![]() モバイル SEO のベストプラクティス〜クローラのアクセス状況を把握するこの記事のURLhttp://japan.internet.com/allnet/20091214/8.html
著者:アウンコンサルティング株式会社
国内internet.com発の記事
すでに様々な場所で言われていることだが、モバイル SEO を行ううえで、まず重要なのはクローラがアクセスできる環境を整えることにある。
モバイルの場合、PC とは異なり、キャリアや機種によるコンテンツの振り分け、アクセスの制御などが必要になるため、それらの設定次第では、検索エンジンのクローラがサイトにアクセスできず、検索結果にも表示されないという結果に陥りやすくなるという特徴がある。 特にキャリア公式検索エンジンの場合、クローラの情報収集を妨げる要因が細かく存在しているため、クローラが正常にサイトにアクセスできているかどうかという点に関しては、より一層の注意を払う必要があると考えられる。 その際、有効な手段の1つとして考えられるのが、アクセスログによるクローラアクセス状況の把握である。サイトへのアクセス状況が記録されたアクセスログから、アクセスしているクローラの種類やアクセス頻度、アクセス先の URL を知ることができるため、モバイル SEO の導入段階で、サイトの状況を調査する上では非常に有用であると考えられる。 以前「モバイル SEO ベストプラクティス」と題し検索エンジンの仕様について紹介したが、今回は、クローラアクセス状況の調査について、改めてまとめてみたい。 ■調査手順と留意点について 実際にクローラのアクセス状況を調査する場合は、それぞれ、以下の点に留意しつつ進める必要がある。 1.アクセスログの準備 調査にあたり、当然ながら、対象となるサイトの Web サーバーのアクセスログを準備する必要がある。キャリアによってドメインを振り分けているような場合であれば、すべてのドメインについてのログが必要である。 ログの期間については、対象となる Web サイトの規模にもよるもが、最低でも2週間以上の範囲を調査対象とすべきである。それよりも短い期間になると、一定期間ごとに集中的にアクセスを行う EZweb などのクローラ情報が調査範囲から漏れてしまい、クローラのアクセス状況を正しく把握することが困難になるためである。 2.クローラごとのアクセスログの抽出 次に、用意したアクセスログに記録されている User-Agent 情報に基づいて、クローラに関するログデータのみを抽出し、クローラの種類によって分類を行う。具体的には、User-Agent 情報に以下の文字列を含むものをそれぞれ抽出し、分類する。 <主要なモバイル検索サービスとクローラを表す文字列> ・ドコモ(iメニュー公式検索サービス):「i-robot」 ・au(EZweb 公式検索サービス):「KDDI-Googlebot-Mobile」 ・ソフトバンク(Yahoo!ケータイ):「SNVSE00000001」 ・Google モバイル:「Googlebot-Mobile」 ・Yahoo! モバイル:「Y!J-SRD」「Y!J-MBS」 3.問題箇所の特定 最後に、抽出したクローラごとのアクセスログについて、アクセス状況について問題がないかどうか、具体的に調査を行っていく。まず、確認すべき主要なポイントは下記の点である。 ・アクセス頻度 クローラのアクセスが1日にどの程度あるか、また、何日おきにアクセスが行われているかを確認する必要がある。 1日のクローラのアクセス数が非常に少ない場合には、クローラのアクセスに対して何らかの問題が発生している可能性が高いと考えられるが、一方で、前述の EZweb のような集中クロール型のクローラも存在しているため、期間中、何日おきにアクセスが行われているかという点についても確認しておくべきであろう。 ちなみに、EZweb 検索サービスのクローラの場合は、2週間程度の期間をあけて集中クロールを行うため、1週間程度アクセスが0だったとしても、即座に問題があると判断することはできない。 ・アクセス先 URL クローラがアクセスを行っている URL についても、確認が必要である。 例えば、1日に数回クローラのアクセスがある場合でも、アクセス先が「/robots.txt」のみになっているような場合には、クローラは実際にはサイト内を巡回していないと判断することができる。この場合、クローラのアクセスを制御する robots.txt(※1)ファイルの記述によって、当該クローラのアクセスが遮断されている可能性が高いと考えられる。 ・ステータスコード アクセス先 URL と合わせて、サーバーから返しているステータスコード(※2)も確認する必要がある。 サーバーの設定によって、クローラに対してのみ、アクセス先の URL が存在しないことを表すステータスコード404やその他のエラーが返されていないかどうか、また、ステータスコード301や302によって予定外の URL へのリダイレクトが行われていないかなどについて確認を行う。 冒頭で述べた通り、クローラアクセス状況の調査は、とくにキャリア公式サイトの問題点を特定するために有効な手法である。実際、企業の Web サイトを調査してみると、robots.txt の設定が微妙に異なるためにサイト全体が検索エンジンに表示されないということもある。 設定をきちんとしているつもりでも、発見しにくいバグやエラーが発生する場合もあるので客観的に問題点を発見するためにも、定期的にアクセス状況を調査する必要があるだろう。 ※1 クローラーの動きを制御するためのテキストファイル。クロールから除外する URL などを記述する。 ※2 HTTP において、Web サーバーのレスポンスの意味を表す3桁の数字。例えば、ブラウザで Web ページを表示するような場合に、ブラウザと Web サーバーとの間のやりとりの状況を表すために利用される。 (執筆:アウンコンサルティング株式会社)
japan.internet.comのウエブサイトの内容は全て、国際法、日本国内法の定める著作権法並びに商標法の規定によって保護されており、その知的財産権、著作権、商標の所有者はインターネットコム株式会社、インターネットコム株式会社の関連会社または第三者にあたる権利者となっています。
本サイトの全てのコンテンツ、テキスト、グラフィック、写真、表、グラフ、音声、動画などに関して、その一部または全部を、japan.internet.comの許諾なしに、変更、複製、再出版、アップロード、掲示、転送、配布、さらには、社内LAN、メーリングリストなどにおいて共有することはできません。 ただし、コンテンツの著作権又は所有権情報を変更あるいは削除せず、利用者自身の個人的かつ非商業的な利用目的に限ってのみ、本サイトのコンテンツをプリント、ダウンロードすることは認められています。 |