ロボットを排除するには

ページ単位の設定

Google などの検索サービスは,自動的に世界中のWebページを巡回してデータベースに登録しています。 このような自動巡回ソフトのことをロボットといいます。

このような検索サービスはたいへん便利ですが,自分のページを検索サービスに登録したくない場合もあります。 たとえば私的な予定表のページなどは,データベースに登録してもらっても,他の人の役に立つとは思えません。 こういうページは,頭のところにロボット除けの護符を置いておきます。 具体的には,<head></head> で囲まれたところのどこかに

<meta name="robots" content="noindex,nofollow" />

と書いておきます。 noindex は「このページをデータベースに登録するな」という意味,nofollow は「このページから先はリンクをたどるな」という意味です。

すべてのロボットがこの仕組みで退散してくれるわけではありませんが,少なくとも Google は大丈夫のようです。

Google ではさらに noarchive という指定をするとキャッシュされなくなります。

サイト全体の設定

サイト全体をロボット禁止にするなら,サイトのドキュメントルートディレクトリに robots.txt というファイルを置き,それに次のように書いておきます。

User-agent: *
Disallow: /
                 ←空行

特定の(いくつかの)ディレクトリ(フォルダ)だけ禁止するには次のようにします。

User-Agent: *
Disallow: /docs/
Disallow: /mirror/
Disallow: /photo/
                 ←空行

最後に空行を置くというルールは最近あまり見ないので,もうなくなったのかもしれません。

robots.txt がないとWebサーバのエラーログにたくさん「robots.txt が見つからない」というエラーが入ります。 これが嫌なら,空の robots.txt を作っておけばいいでしょう。

関連リンク


奥村晴彦

Last modified: 2008-11-17 14:55:09