|
ニュース検索
ピックアップ
今週のIT求人情報
|
管理ページが検索されないために〜検索エンジンに表示させないためのポイント最近、通販サイトなどで管理ページが検索エンジンで検索できる状態になってしまい、個人情報が大量に流出してしまう事故が後を絶たない。
ある程度以上の規模のサイトでは、多くの場合、管理ページなどの一般ユーザーに閲覧されると大きな問題となるページを持っていることだろう。今回、そのようなページが検索エンジン経由での情報漏洩を発生させないためのポイントを解説しよう。 ●よく語られる検索エンジンに認識させないための方法 日本で使用できる主要検索エンジンは、クロール(コンテンツにアクセスして情報収集する)対象から外すための方法を複数用意している。 (1)robots.txt での記述 検索エンジンに検索対象を伝えるための検索エンジンの共通規格、robots.txt へ適切な記述を行うことにより、クロール対象から外すための申請となる。Google、Yahoo!検索などの主要検索エンジンは、それぞれ robots.txt への対応状況を説明しているので、確認しておくべきだろう。 (2)meta 要素にインデックス拒否の設定を記述 検索されたくないページの head 要素内に、<meta name="robots" rel="noindex" />など、検索エンジンから検索されないための meta 要素を記述することで、検索対象から外す申請となる。 (3)サイト管理ツールの使用 検索エンジンがウェブマスター向けに用意しているサイト管理ツール(Yahoo!検索サイトエクスプローラー、Google ウェブマスターツールなど)の使用により、すでにインデックスされているページの削除などを行うことができる。 上記の3点が、検索エンジンからインデックスされないための方法としてよく語られる方法である。しかしこれは、今回の目的「一般ユーザーには見られないようにする」ための方法としては不十分である。上記の3点、もしくはその組み合わせでは、ユーザーに見つかる可能性が高いのである。 検索エンジンにクロール拒否の申請を行っても、検索エンジンにインデックスされるのはさまざまなパターンがある。robots.txt や meta 要素の利用においては、検索エンジンのクロールを拒否できるものの、多くのリンクが集まったページは検索結果に表示する場合がある。 また、robots.txt は、ユーザーに robots.txt ファイルを直接を見られると、見られたくないページのリストを公開することになってしまうのも問題だろう。サイト管理ツールでは、一度インデックスされたページ以外を個別指定するのは困難であったり、指定数に制限があることが問題である。さらに半年などの有効期限があり、定期的に設定をし直す必要もある。また、検索エンジン側の不具合により、これらのクロール拒否の設定が無視される事例も少なくない。 上記のように、robots.txt や meta 要素での記述では、検索エンジンのクロールを制御することはできても、検索結果への露出をなくすことは困難である。これらの方法は、「ユーザーには見せても良いが、検索エンジンだけに見せない」場合、例えば重複コンテンツ対策などの場合に使うことをお勧めしたい。 ●検索エンジンを排除するための唯一の方法 確実に検索結果に表示されないためには、通常のユーザーにもコンテンツを見せない設定を取るしかない。Basic 認証など、URL に ID やパスワードが表示されない形でのログインを必要としておくことや、厳しい IP 制限をかけるなど、特定の厳しい条件を満たした環境以外はアクセスできないようにするしかないのである。 そもそも、公開すると非常に大きな問題となる情報を、インターネット経由でアクセスできる状態になっていることが問題だろう。しかし、様々な事情によりそれを避けることができない場合も多い。どうしてもインターネット経由でアクセスする必要があるのであれば、最大限の注意を払うべきである。 なお、検索結果にすでに表示されたコンテンツを消したい場合、Basic 認証などでアクセスできなくするだけでは、検索結果から消えるまでに数週〜数か月の時間が必要になる場合がある。検索エンジンのクローラーが過去にアクセスできていた情報にアクセスできなくなった場合は、過去の情報を表示し続けるのである。 その場合には、問題がある Web ページを空白ページで上書きをした上で、robots.txt、meta 要素のどちらかでインデックス拒否を行い、サイト管理ツールでインデックス非表示の操作を行うのが最も確実だろう。この方法で検索結果から消えたのを確認した上で、アクセスできなくする対応を取ることをお勧めしたい。 ●非公開情報を公開されないために 検索エンジンの進化とともに、検索できる範囲は大きく広がった。過去には検索できなかった画像や動画、Flash なども検索できるようになり、数秒前に投稿したばかりのブログの記事が検索結果に表示される場合もある。 そのため、検索エンジンを発端とした情報漏洩は確かに増えているだろう。しかし、検索エンジンが進化する前には、情報漏洩は他の経路で発生していた。アクセス解析のログのリファラーからのアクセスや、ブラウザ常駐型ツールを経由した個人情報漏洩もあった。 検索エンジンの進化は、公開してはならない情報が漏洩するのを速めてはいるものの、検索エンジン経由で発生するような情報漏洩は、他の方法でも漏えいしてしまう状態になっていると言える。検索エンジンの有無にかかわらず、公開してはならない情報に簡単にアクセスできるようになっていることが問題なのである。 検索技術の進化とともに検索できる範囲は広がり続けている。もしも、検索されたくないようなコンテンツがあった場合、今、検索できなくても、明日は検索できるようになっているかもしれない。もしも、公開してはならない情報をネット上に配置する場合には、検索エンジン側の仕様を信頼せず、そもそもアクセスできなくすることが必須と覚えておいていただきたい。 (執筆:株式会社アイレップ SEM 総合研究所 辻 正浩) 記事提供:アイレップ
関連記事
新着ニュース・コラム ホワイトペーパー
|
注目のトピックス 話題の記事
企業の約4割がいまでも IE 6 以前のブラウザを利用 ― Web 広告研究会調査
SNS「非モテ+」、バレンタイン関連ワード投稿を禁止に
さぬきうどんの食べ歩きをサポートするスマホアプリ「Udooon!」が公開
Android 版 Chrome ベータ1登場、ただし Android 4.0用
Android アプリを美しくみせる UI デザイン10のヒント
⇒一覧を見る
アクセスランキング
最新コラム一覧
|
||||||||||||||||||||