robots.txtとは
robots.txtは、クローラーの巡回を制限するためのテキストファイルです。robots.txtを誤って使ってしまうと、検索エンジンからの評価を下げかねないので、使用方法や用途をしっかり確認しましょう。
robots.txtの用途
robots.txtは、Webサイトのコンテンツを評価するクローラーの巡回を制限するためのファイルなので、通常は設定する必要はありません。
Webサイトの規模が大きく、クローラーの巡回がサーバーに負荷をかけている場合などに、robots.txtを設定することでクローラーに巡回が不要なページを指定したり、特定のクローラーの巡回を制御したりすることができます。
robots.txtの記述方法
robots.txtは、トップページと同じディレクトリに配置します。
WordPressでは以下のように予め設定されています。
WordPress
- User-agent: *
- Disallow: /wp-admin/
- Sitemap: http://www.example.com/sitemap.xml
「User-agent:」では、対象の検索エンジンのクローラーを指します。(「*」は、すべてのクローラーに対してという意味です。)
「Disallow:」は、指定したURLへの巡回をブロックする指示で、巡回を許可する場合は「Allow:」と記述します。
robots.txtの注意点
robots.txtでは、「1つのページに対してnonidexを併用しない」ことと、「JavaScriptやCSSをブロックしない」の2点に注意しましょう。
1つのページに対してnoindex(特定のURLを検索エンジンにインデックスさせないようにするための構文)とrobots.txtを併用すると、クローラーはそのページを辿れなくなり、noindexの記述を見つけることができません。
CSSファイル用のディレクトリゴトブロックしてしまうと、クローラーがページの内容を正常に表示できない可能性があります。