japan.internet.com
ビジネス2010年6月1日 09:00
文字サイズ文字サイズ小文字サイズ中文字サイズ大

管理ページが検索されないために〜検索エンジンに表示させないためのポイント

この記事のURLhttp://japan.internet.com/busnews/20100601/8.html
著者:株式会社アイレップ
国内internet.com発の記事
最近、通販サイトなどで管理ページが検索エンジンで検索できる状態になってしまい、個人情報が大量に流出してしまう事故が後を絶たない。

ある程度以上の規模のサイトでは、多くの場合、管理ページなどの一般ユーザーに閲覧されると大きな問題となるページを持っていることだろう。今回、そのようなページが検索エンジン経由での情報漏洩を発生させないためのポイントを解説しよう。

●よく語られる検索エンジンに認識させないための方法
日本で使用できる主要検索エンジンは、クロール(コンテンツにアクセスして情報収集する)対象から外すための方法を複数用意している。

(1)robots.txt での記述
検索エンジンに検索対象を伝えるための検索エンジンの共通規格、robots.txt へ適切な記述を行うことにより、クロール対象から外すための申請となる。GoogleYahoo!検索などの主要検索エンジンは、それぞれ robots.txt への対応状況を説明しているので、確認しておくべきだろう。

(2)meta 要素にインデックス拒否の設定を記述
検索されたくないページの head 要素内に、<meta name="robots" rel="noindex" />など、検索エンジンから検索されないための meta 要素を記述することで、検索対象から外す申請となる。

(3)サイト管理ツールの使用
検索エンジンがウェブマスター向けに用意しているサイト管理ツール(Yahoo!検索サイトエクスプローラー、Google ウェブマスターツールなど)の使用により、すでにインデックスされているページの削除などを行うことができる。

上記の3点が、検索エンジンからインデックスされないための方法としてよく語られる方法である。しかしこれは、今回の目的「一般ユーザーには見られないようにする」ための方法としては不十分である。上記の3点、もしくはその組み合わせでは、ユーザーに見つかる可能性が高いのである。

検索エンジンにクロール拒否の申請を行っても、検索エンジンにインデックスされるのはさまざまなパターンがある。robots.txt や meta 要素の利用においては、検索エンジンのクロールを拒否できるものの、多くのリンクが集まったページは検索結果に表示する場合がある。

また、robots.txt は、ユーザーに robots.txt ファイルを直接を見られると、見られたくないページのリストを公開することになってしまうのも問題だろう。サイト管理ツールでは、一度インデックスされたページ以外を個別指定するのは困難であったり、指定数に制限があることが問題である。さらに半年などの有効期限があり、定期的に設定をし直す必要もある。また、検索エンジン側の不具合により、これらのクロール拒否の設定が無視される事例も少なくない。

上記のように、robots.txt や meta 要素での記述では、検索エンジンのクロールを制御することはできても、検索結果への露出をなくすことは困難である。これらの方法は、「ユーザーには見せても良いが、検索エンジンだけに見せない」場合、例えば重複コンテンツ対策などの場合に使うことをお勧めしたい。

●検索エンジンを排除するための唯一の方法
確実に検索結果に表示されないためには、通常のユーザーにもコンテンツを見せない設定を取るしかない。Basic 認証など、URL に ID やパスワードが表示されない形でのログインを必要としておくことや、厳しい IP 制限をかけるなど、特定の厳しい条件を満たした環境以外はアクセスできないようにするしかないのである。

そもそも、公開すると非常に大きな問題となる情報を、インターネット経由でアクセスできる状態になっていることが問題だろう。しかし、様々な事情によりそれを避けることができない場合も多い。どうしてもインターネット経由でアクセスする必要があるのであれば、最大限の注意を払うべきである。

なお、検索結果にすでに表示されたコンテンツを消したい場合、Basic 認証などでアクセスできなくするだけでは、検索結果から消えるまでに数週〜数か月の時間が必要になる場合がある。検索エンジンのクローラーが過去にアクセスできていた情報にアクセスできなくなった場合は、過去の情報を表示し続けるのである。

その場合には、問題がある Web ページを空白ページで上書きをした上で、robots.txt、meta 要素のどちらかでインデックス拒否を行い、サイト管理ツールでインデックス非表示の操作を行うのが最も確実だろう。この方法で検索結果から消えたのを確認した上で、アクセスできなくする対応を取ることをお勧めしたい。

●非公開情報を公開されないために
検索エンジンの進化とともに、検索できる範囲は大きく広がった。過去には検索できなかった画像や動画、Flash なども検索できるようになり、数秒前に投稿したばかりのブログの記事が検索結果に表示される場合もある。

そのため、検索エンジンを発端とした情報漏洩は確かに増えているだろう。しかし、検索エンジンが進化する前には、情報漏洩は他の経路で発生していた。アクセス解析のログのリファラーからのアクセスや、ブラウザ常駐型ツールを経由した個人情報漏洩もあった。

検索エンジンの進化は、公開してはならない情報が漏洩するのを速めてはいるものの、検索エンジン経由で発生するような情報漏洩は、他の方法でも漏えいしてしまう状態になっていると言える。検索エンジンの有無にかかわらず、公開してはならない情報に簡単にアクセスできるようになっていることが問題なのである。

検索技術の進化とともに検索できる範囲は広がり続けている。もしも、検索されたくないようなコンテンツがあった場合、今、検索できなくても、明日は検索できるようになっているかもしれない。もしも、公開してはならない情報をネット上に配置する場合には、検索エンジン側の仕様を信頼せず、そもそもアクセスできなくすることが必須と覚えておいていただきたい。

(執筆:株式会社アイレップ SEM 総合研究所 辻 正浩)


記事提供:アイレップ
japan.internet.comのウエブサイトの内容は全て、国際法、日本国内法の定める著作権法並びに商標法の規定によって保護されており、その知的財産権、著作権、商標の所有者はインターネットコム株式会社、インターネットコム株式会社の関連会社または第三者にあたる権利者となっています。
本サイトの全てのコンテンツ、テキスト、グラフィック、写真、表、グラフ、音声、動画などに関して、その一部または全部を、japan.internet.comの許諾なしに、変更、複製、再出版、アップロード、掲示、転送、配布、さらには、社内LAN、メーリングリストなどにおいて共有することはできません。
ただし、コンテンツの著作権又は所有権情報を変更あるいは削除せず、利用者自身の個人的かつ非商業的な利用目的に限ってのみ、本サイトのコンテンツをプリント、ダウンロードすることは認められています。

Copyright 2012 internet.com K.K. (Japan) All Rights Reserved.