robots.txtとは

2018.07.09

SEO基礎知識

robots.txtは、クローラーの巡回を制限するためのテキストファイルです。robots.txtを誤って使ってしまうと、検索エンジンからの評価を下げかねないので、使用方法や用途をしっかり確認しましょう。

robots.txtの用途

robots.txtは、Webサイトのコンテンツを評価するクローラーの巡回を制限するためのファイルなので、通常は設定する必要はありません。

Webサイトの規模が大きく、クローラーの巡回がサーバーに負荷をかけている場合などに、robots.txtを設定することでクローラーに巡回が不要なページを指定したり、特定のクローラーの巡回を制御したりすることができます。

robots.txtは、トップページと同じディレクトリに配置します。

WordPressでは以下のように予め設定されています。

WordPress

User-agent: *

Disallow: /wp-admin/

Sitemap: http://www.example.com/sitemap.xml

「User-agent:」では、対象の検索エンジンのクローラーを指します。(「*」は、すべてのクローラーに対してという意味です。)

「Disallow:」は、指定したURLへの巡回をブロックする指示で、巡回を許可する場合は「Allow:」と記述します。

robots.txtでは、「1つのページに対してnonidexを併用しない」ことと、「JavaScriptやCSSをブロックしない」の2点に注意しましょう。

1つのページに対してnoindex(特定のURLを検索エンジンにインデックスさせないようにするための構文)とrobots.txtを併用すると、クローラーはそのページを辿れなくなり、noindexの記述を見つけることができません。

CSSファイル用のディレクトリゴトブロックしてしまうと、クローラーがページの内容を正常に表示できない可能性があります。