クローラー(Crawler)とは

Pocket

クローラーとは、検索エンジンが検索結果を表示するためにWebサイトの情報を収集する自動巡回プログラム(ロボット)のことです。クローラーによって収集(=クロール)された情報はデータベースとして格納(=インデックス化)され、検索結果表示に利用されます。

サイト本体を作るHTMLファイルだけでなく、PDFやExcelなど主要なアプリケーション形式のファイルも読み込みます。画像も収集しますが、alt属性や代替テキストで画像の内容を言葉で記述しない限り、クローラーには内容が認識されません。

クローラーに正確に早く認識されることがユーザー獲得の必須条件

言うまでもなく、クローラーに認識されないと検索結果は表示されません。認識されるまでの期間が長いと結果表示までの期間も長くなります。人間であるユーザーと同じくらい、ロボットであるクローラーにもフレンドリーなサイトにしなければなりません。

クローラーへの配慮

1.ページを見つけやすくする「クローラビリティ」

  • 内容が近いコンテンツを分類し、同じディレクトリ(グループ)にぶらさげる
  • 重要なコンテンツは浅い階層に置く
  • すべてのページに内部リンクを張る
  • ページ情報をまとめた「XMLサイトマップ」を検索エンジンに登録

これらがクローラビリティに有効な施策となります。

2.早く多頻度に巡回してもらう

内容が充実したコンテンツの新設・更新を頻繁に行うことが基本です。Googleにクロールを促す「Fetch as Google(フェッチ・アズ・グーグル)」に登録する方法もあります。

3.ユーザーにとって価値がないページをクロールしないように設定する

SEO対策において、クロールが不要なページにはクローラーが回らないように、「robots.txt」で依頼することができます。
クローラーは1回の訪問でサイト内の全てのページをクロールしているわけではありません。クローラーが1回の訪問でクロールするページ数(クロールバジェット)は、サイトのオーソリティによって変動しているため、そのクロールバジェットよりもページ数が多いサイトは、1回の訪問で全てのページがクロールされません。そうなると、検索エンジンにインデックスされるのが遅くなってしまったり、古い情報のまま更新されなかったりという事態に陥る可能性が高まります。このような状態になるのを防ぐために、robots.txtでクローラーを制御する必要があります。

設定方法:robots.txtの書き方解説「クローラーを制御してインデックス効率化する」

4.適切にクロールをブロックできているか確認する

クロールしてほしくないページを依頼する方法は、metaタグ「noindex」など他にもあります。Googleでは「robots.txtテスター」で、意図通りにクロールをブロックできているかを確認することができます。

Pocket