クロールバジェットとは?可視化と改善方法のポイントを解説


「クロールバジェットとはどのようなものか知りたい」
「クロールバジェットに影響を及ぼす要素や項目にはどのようなものがある?」
「具体的な対策方法やポイントについて知りたい」
企業の経営者やマーケティング部門の担当者、Webサイトの運営者の中には、このような疑問やお悩みをお持ちの方もいらっしゃるかと思います。
クロールバジェットとは、検索エンジンのクローラーが1つのWebサイトに対してクロールできる上限を意味します。
特定のWebサイトやWebページが検索結果に表示されるためには、検索エンジンのデータベースにその情報が保存されている必要があります。
検索エンジンのデータベースに保存されるWebサイトなどの情報は、クローラーと呼ばれるプログラムがWebサイトを巡回することによって取得されます。
もっとも、クローラーは無制限にWebサイトを巡回できるわけではなく、その能力には限界があります。
それがクロールバジェットと呼ばれる概念です。
クロールバジェットは、Webサイトを取り巻くさまざまな要素によって影響を受けます。
そのため、自社のWebサイトがクロールバジェットの影響を受けてクローラーに巡回してもらえなければ、検索結果の表示にも影響が生じることがあるのです。
本記事では、クロールバジェットの概要や影響を及ぼす要素などについて解説します。
また、クロールバジェットに影響を及ぼす要素を知ることで、自社のWebサイトやページへのクローラーの巡回頻度などを向上させるための対策を行うことも可能です。
自社のWebサイトやコンテンツが検索エンジンに適切に評価されるためにも、これらについて押さえておくことは重要といえるでしょう。
1.クロールバジェットの概要
クロールバジェットは、「クロールの割り当て」とも表現されることがあります。
Webサイトの数は日々増えており、その数に限りがありません。
そのため、すべてのWebサイトをクローラーが巡回するのには限界があり、上限が設けられているのです。
以下では、クロールバジェットに関する重要なトピックスについて解説します。
- クロールバジェットとは
- クロールバジェットが決定される要素
- クロールバジェットにカウントされる対象
- クロールバジェットに注意すべきWebサイト
まずはクロールバジェットの概要について知りたい方は、ぜひご覧ください。
(1)クロールバジェットとは
先ほども述べたように、クロールバジェットとは、1つのWebサイトに対してクローラーが巡回できる上限を意味します。
クローラーは自律的に作動するプログラムであり、その役割はWebサイトを巡回(クロール)して、その情報を収集し、検索エンジンのデータベースに保存(インデックス処理)することにあります。
そして、クローラーが担うこのような一連の流れを「クローリング」といいます。
検索エンジンは、クローラーが収集した情報に独自のアルゴリズムによってランク付けを行い、検索結果に表示させるのです。
その意味で、クローラーがWebサイトを巡回してくれることは、検索エンジンの検索結果に表示されるための第一段階ということができるでしょう。
もっとも、クローラーはインターネット上のすべてのWebサイトを巡回しているわけではありません。
インターネット上のWebサイトの数は日々増加しているため、そのすべてについてクローラーが巡回することには限界があるのです。
そのため、1つのWebサイトを巡回する活動量も必然的に制限を受け、そのような活動量の上限をクロールバジェットといいます。
つまり、クロールバジェットがあることで、Webサイトのページの中にはクロールされないものが出てくることに注意が必要です。
すでに述べているように、Webサイトが検索結果に表示されるためには、クローラーの巡回(クロール)とデータベースへの保存(インデックス処理)が必要不可欠となります。
その意味で、クロールバジェットはSEO対策を行う上で留意すべき事項ということができるでしょう。
なお、検索エンジンの仕組みについては、以下の記事も参考になります。
(2)クロールバジェットが決定される要素
クロールバジェットは、以下のような要素によって決定されます。
- クロール能力
- クロールの必要性
順にご説明します。
#1:クロール能力
クロール能力とは、クローラーが一度にどれほどのWebページを巡回できるかの上限を意味します。
このような上限は、検索エンジン側で設けている場合が一般的です。
これは、クローラーの巡回によって、Webサイトのサーバーに負荷が生じてしまうことを防止することを目的としているためです。
具体的には、サーバーの応答速度によってクロール能力が左右されます。
例えば、サーバーの応答速度が速く、安定している場合にはクロール能力も高くなり、それに伴ってクロール頻度も高くなる傾向にあります。
しかし、反対にサーバーの応答速度が遅い場合にはクロール能力も低くなり、クロールの頻度が低下することに注意が必要です。
なお、クロールの頻度はこのようなサーバーの応答速度だけでなく、Webサイトの重要性についても左右されます。
#2:クロールの必要性
クローラーにとって、巡回の必要性が高いかどうかもクロールバジェットを決定する要素といえます。
すでに述べたように、インターネット上にはWebサイトが数多く存在し、クローラーはすべてのサイトを同じ頻度で巡回することはできません。
そのため、巡回するWebサイトについては、優先順位が設けられています。
具体的には、Webサイトの重要性によってクローラーが巡回すべきサイトについて優先順位を判断するのです。
優先順位を判断する上では、以下のような要素が考慮されます。
- サイトの更新頻度
- サイトのアクセス数
- 被リンクの獲得数
例えば、1週間おきに定期的に更新されるWebサイトは、数か月単位でしか更新されないWebサイトと比較すると、クローラーに重要度が高いと判断されます。
また、検索ユーザーに人気があり、多くのユーザーが閲覧しているようなWebサイトについても、クロールの必要性が高いと判断されるでしょう。
クローラーに巡回の必要性が高いと判断されれば、コンテンツの更新を行ってから早期にクロールされ、インデックス処理が施されることになります。
そうすると、コンテンツの更新から時間を置かずに検索結果に表示される可能性が高まり、さらなるアクセス数の増加を期待することができるのです。
(3)クロールバジェットにカウントされる対象
クロールバジェットは、端的にいえば、クローラーの活動量の上限です。
そのため、クローラーがWebサイトから取得できる情報を対象としています。
クローラーはWebサイトを巡回することで、そのサイトやページの情報を取得していますが、その対象はURLなどのテキストデータです。
代表的なものはHTMLファイルであるものの、以下のようなデータも取得しています。
- CSSファイル
- JavaScriptファイル
- テキストファイル
- 画像
そのため、URLやデータの数が多ければ、必然的にクロールの割り当ても消費されることとなってしまうのです。
また、同じ内容のページであっても、PCとSP(スマホ)で異なるURLを用いている場合には、それぞれが別の情報としてカウントされます。
これによって、クロールの割り当てが消費されてしまい、必要なページのクロールが行われないリスクが生じてしまうのです。
(4)クロールバジェットに注意すべきWebサイト
上記のように、クロールバジェットの対象となるのは、URLなどのデータです。
そのため、URLが膨大であるようなWebサイトでは、すぐにクロールの割り当てが消費されてしまい、クロールの頻度が下がってしまう可能性が高まってしまいます。
具体的には、ページ数が数万に及ぶような大規模なWebサイトの運営を行っている場合には、SEOという観点からもクロールバジェットを意識することが必要となってきます。
なお、Google社はクロールバジェットの影響を受ける可能性があるWebサイトについて、以下のような指標を説明しています。
- 大規模(重複のないページが100万以上)でコンテンツが中程度(1週間に1回)に更新される
- 中規模以上(重複のないページが1万以上)でコンテンツがかなり頻繁に(毎日)更新される
例えば、大型のECサイトやニュースメディアなどを運営している場合には、クロールバジェットを意識した対策を行う必要があるのです。
もっとも、Webサイトのページ数は通常であれば数千程度にとどまることがほとんどです。
そのため、ページ数がそれほど多くないWebサイトでは、クロールバジェットを気にする必要はほとんどないといえます。
さらに、以下のようなWebサイトもクロールバジェットを意識する必要が乏しいといえるでしょう。
- ページの投稿・更新をほとんど行わないサイト
- 一度のクロールですべてのページがクロールされるサイト
- ページを投稿した当日にクロールされるサイト など
このように、Webサイト全体でのページ数や更新頻度などによっても、クロールバジェットは変動します。
特にこれからWebサイトの規模拡大や積極的なSEO対策に注力される場合には、クロールバジェットを意識するようにしましょう。
2.クロールバジェットに影響を及ぼす主な項目
上記で述べたように、クロールバジェットを決定する要素には、クローラーの能力とクロールの必要性という2つの要素があります。
このうち、クローラーの能力については、検索エンジン側による制御という側面があります。
もっとも、クロールの必要性という要素に関しては、Webサイトそれ自体や取り巻く環境によって左右されるということができるでしょう。
特に以下のような項目によってクロールの必要性が左右されることがあります。
- ファセットナビゲーションとセッションID
- 重複コンテンツ・ページ
- 質の低いコンテンツ
- ソフト404ページ
- ハッキングされたページ
順に見ていきましょう。
(1)ファセットナビゲーションとセッションID
ファセットナビゲーションとは、特定の条件や項目に従ってページを生成するシステムのことです。
主に大規模なECサイトなどに導入されており、検索ページがこれにあたります。
例えば、ユーザーが任意の条件や項目を入力して操作を行うことで、その条件や項目に合わせてページが生成され、ユーザーは閲覧することができます。
これに対して、セッションIDとはユーザーが訪問するたびに異なったIDを自動的に付与するシステムをいいます。
ファセットナビゲーションを導入していると、条件や項目の組み合わせによって異なるページが生成される場合が多いです。
そして、そのページごとに異なるURLが付与されれば、クローラーはそのすべてのURLを巡回してしまいます。
例えば、条件や項目が10個あり、その中から2つの条件や項目を組み合わせると、実に45通りの選択肢があります。
つまり、45のページ(URL)が生成されることになるのです。
また、これにセッションIDのシステムが組み込まれている場合には、クローラーがそのサイトを訪問するたびに異なるURLが生成されることになってしまいます。
そうすると、無限に新たなURLが生成され、それをクローラーが巡回するという「クロールトラップ」という現象が生じてしまうのです。
これらによって、クロールの割り当てが無駄に消費されてしまい、重要なページのクロールが行われない可能性が高まってしまいます。
そのため、URLパラメータを最適化し、重複するページを適切に管理することが重要といえるでしょう。
(2)重複コンテンツ・ページ
サイト内に重複コンテンツや重複ページが存在する場合にも、クロールバジェットに悪影響を与えることがあります。
重複コンテンツとは、内容が同じあるいは類似しているコンテンツが複数のページに存在していることをいいます。
これが発生していると、クローラーがすべてのページを巡回してしまうことで、クロールバジェットが消費されてしまうのです。
また、PCとSP(スマホ)で異なるURLを用いているような場合にも重複コンテンツとみなされてしまうため、注意が必要となります。
このような事態を回避するためには、正規化タグを用いたURLの正規化を行うことが有効です。
また、URLの正規化を行うことは、別々のURLで分散していたSEO評価を統合することにもつながるため、SEO対策上もよい効果を期待することができるでしょう。
なお、重複コンテンツは、意図していなくても、サイトの運営やコンテンツ制作が長期化すればするほど生じる可能性があります。
そのため、コンテンツ制作についてはあらかじめ戦略の設計を工夫しておくことが重要といえます。
コンテンツを活用したマーケティング施策の戦略策定のポイントについては、以下の記事で詳しく解説していますので、ぜひ参考にしてみてください。
(3)質の低いコンテンツ
質の低いコンテンツが存在する場合にも、注意が必要です。
具体的には、以下のようなコンテンツやページがこれにあたります。
- キーワードが詰め込まれただけのもの
- 自動生成されたもの
- ほかのサイトのコンテンツやページをコピーしたもの
これらは、検索ユーザーにとって価値が低いものといえます。
そのため、検索エンジンにとっても、重要性が低いコンテンツということができるでしょう。
しかし、このような質の低いコンテンツが大量にある場合にも、クローラーが巡回してしまい、それによってクロールバジェットが無駄に消費されてしまうのです。
そのため、新たに制作したコンテンツがどれほど良質なものであったとしても、質の低いコンテンツが同じサイト内に存在することで、クロールに悪影響を及ぼしてしまいます。
そのような事態を防ぐためには、質の低いコンテンツを削除したりリライトを加えたりして、サイト全体の品質を向上させることが必要不可欠です。
コンテンツの改善を行うことで、検索ユーザーのアクセス数を改善させることにつながり、クローラーの巡回の優先度を向上させることも期待できるでしょう。
(4)ソフト404ページ
ソフト404ページとは、存在していないページがあたかも存在しているかのように扱われてしまうエラーのことをいいます。
削除などによって存在しないページを訪問すると、サーバーからHTTPステータスコードというものが送られ、404ページとして表示がされます。
しかし、その404ページが存在するページとして正常に読み込まれて処理されてしまうのがソフト404ページです。
表示自体は通常の404ページとしてされるため、リンクも内容もないページがクローラーに巡回されることになります。
そうすると、クローラーの割り当てが無意味に消費されるだけでなく、中身のないコンテンツと判断されてしまうリスクもあるのです。
クローラーに中身のないコンテンツを持つサイトと判断されると、クロールの頻度が低下してしまい、SEO上でも悪い影響が生じる可能性が高まります。
(5)ハッキングされたページ
セキュリティの脆弱性のためにサイト運営者の許可なく配置されたページがハッキングされたページです。
このようなページは、検索ユーザーにとっては価値のない低品質なコンテンツであることがほとんどです。
そうすると、クロールバジェットに悪影響を及ぼすだけでなく、質の低いコンテンツを持つサイトと判断されてしまうリスクが高まってしまいます。
3.クロールの最適化を行うための方法
大規模なWebサイトの運営を行っている場合はもちろん、これから自社のWebサイトの規模を拡大して本格的なWebマーケティングを行う場合にもクロールバジェットを意識することが大切です。
具体的には、以下のような対策を行いましょう。
- robots.txtタグを適切に使用する
- 不要なページを削除または統合する
- 低品質なコンテンツのリライトを行う
- ステータスコードのエラーを修正する
- リダイレクトチェーンを解消する
- ページの読み込み速度を改善する
これらの対策をとることで、クロールの最適化を実現することが可能です。
(1)robots.txtタグを適切に使用する
robots.txtタグは、クローラーの巡回に制限をかけ、特定のディレクトリやURLへのクロールを拒否することができるタグです。
主に開発・設計中のページなどについて設定されることが多いタグですが、クロールバジェットの消費を防ぐために使用することもできます。
また、質の低いページやコンテンツが存在する場合には、クローラーが巡回することでSEO評価に悪影響を及ぼす可能性があります。
そのような場合にも、robots.txtタグを設定することで、そのページへのクロールを拒否することが可能です。
なお、robots.txtファイル内にXMLサイトマップの情報を記載することで、クローラーをXMLサイトマップへ誘導することができます。
検索エンジンに対して、Webサイト上のすべてのページの情報を効率よく伝える目的を持つXMLサイトマップをクローラーが巡回することで、ページを素早く巡回してもらえる可能性が高まります。
そのため、ページの更新や追加があった場合には、XMLサイトマップも順次更新することがSEO対策上も重要といえるでしょう。
XMLサイトマップの基本事項や作成方法などについては、以下の記事で詳しく解説していますので、合わせてご参照ください。
(2)不要なページを削除または統合する
クロールさせる必要のないページについては、削除あるいは統合することによって、クロールの消費を防ぐことが可能です。
robots.txtタグの活用は、ページを残した状態でクローラーの巡回を拒否するものですが、物理的にページを削除したりページを1つに統合したりすることでもクロールの最適化を図ることができます。
具体的には、以下のようなページが削除の対象となるでしょう。
- プログラムによって自動生成されたページ
- 無断複製されたページ
- 重複ページ
- 特定のキーワードで上位表示させるための誘導ページ など
また、ページを統合する場合には、URLの最適化やパラメータの最適化を図ることで、ページの管理を行うことが大切です。
(3)低品質なコンテンツのリライトを行う
品質の低いコンテンツやページを削除するのに代えて、リライトを行うこともクロールを最適化させるためには有効な手段といえます。
ページの削除とは異なり、ページ数を減少させることなくコンテンツの改善を行うことが可能です。
先ほども述べたように、クロールバジェットには、コンテンツの更新頻度やアクセス数も影響を与えます。
品質の低いコンテンツは、検索ユーザーにとって価値が低い場合が多く、アクセス数も減少してしまいます。
そうすると、クローラーも低品質なコンテンツが存在するWebサイトと判断して巡回の頻度を下げてしまう可能性が高まってしまうのです。
具体的には、以下のようなコンテンツはリライトが必要といえるでしょう。
- リンク切れを起こしているコンテンツ
- 最終更新から1年以上が経過しているコンテンツ
- スパムコンテンツ
- 重複コンテンツ など
これらについてリライトを加え、コンテンツの改善を行うことで、検索ユーザーのアクセスを再び増加させる効果も期待できます。
アクセス数が増加すると、クローラーの巡回を促すことができるだけでなく、SEO対策上のメリットも大きいです。
(4)ステータスコードのエラーを修正する
ページを削除した場合には、正確なステータスコードを設定することが大切です。
そのため、ソフト404ページが存在する場合には、直ちに正確な404コードに修正するか、410コードを設定するようにしましょう。
410コードとは、ページが永久に削除されたことを示すステータスコードです。
クローラーがページにアクセスした際にサイトのサーバーが410コードを返すと、クローラーはそのページを巡回せず、クロールバジェットを消費することを防ぐことができます。
(5)リダイレクトチェーンを解消する
リダイレクトチェーンとは、複数のページにわたってリダイレクトが行われる現象をいいます。
複数回リダイレクトが行われることによって、クローラーがリダイレクト先のページにたどり着くまでにクロールバジェットが無駄に消費されてしまうのです。
また、Google社は4~5回程度リダイレクトが発生する場合には、クローラーの処理が止まってしまう可能性について言及しています。
そのため、リダイレクトチェーンが発生している場合には、クローラーが必要なページへのクロールをやめてしまうリスクもあるのです。
特に自社のWebサイトに複数のリダイレクトチェーンが設定されている場合には、注意が必要となります。
リダイレクトの処理を行う際には、1回のリダイレクトで目的のページにたどり着くのが望ましいといえるでしょう。
リダイレクトの概要や種類、設定方法などの詳細については、以下の記事もぜひご覧ください。
(6)ページの読み込み速度を改善する
クロールの最適化のためには、コンテンツやサイトの内部構造を改善させるのはもちろん、ページの読み込み速度を上げることも大切です。
これによって、クローラーが効率的にサイト内を巡回することができます。
そのため、クロールバジェットを消費することなくクローラーを円滑に巡回させることにつながり、自社にとって重要性の高いページやコンテンツのクロールとインデックスを促す効果が期待できます。
ページの読み込み速度を改善させる対策には、以下のようなものが挙げられます。
- 画像の圧縮
- テキストファイルの最適化
- ブラウザキャッシュの期限設定
- 不要な外部ファイルの削除 など
なお、サイトスピードの改善施策や有益なツールについては、以下の記事でも解説しています。
4.クロール頻度・状況の確認方法|Google Search Console活用術
クロールの最適化を行うための対策や施策を行った後には、その効果を測定することが大切です。
具体的には、クロールの最適化施策を行った後のクロール頻度を把握・分析する必要があります。
クロール頻度は、Google Search Consoleを活用することで確認することが可能です。
例えば、以下のような機能があります。
- クロール統計情報
- URL検査ツール
それぞれについてご説明します。
(1)クロール統計情報
クロール統計情報は、過去90日間のクロール状況を確認することができる機能です。
以下のような手順で情報を閲覧することができます。
- Google Search Consoleにログイン
- 画面左側の「設定」をクリック
- 「クロールの統計情報」欄の「レポートを開く」をクリック
このデータでは、クロール状況を折れ線グラフで示しているため、クロールの頻度を視覚的に把握できる点に特徴があります。
折れ線グラフ上に表示される数値は、1日にクローラーが何度巡回しているかを表します。
自社のWebサイトの改善を行った後に折れ線グラフが右肩上がりになっている場合には、クローラーの巡回頻度が向上したことを意味します。
これに対して、折れ線グラフが横ばい、または右肩下がりになっている場合には、追加の改善施策や戦略の練り直しが必要となるでしょう。
もっとも、この機能ではWebサイト全体のクロール状況については確認できるものの、具体的にどのページをクローラーが巡回しているかまでは把握できません。
そのため、ページごとにクロールの頻度や状況を確認したい場合には、次にご説明する「URL検査ツール」を活用することがおすすめです。
(2)URL検査ツール
ページ(URL)単位でのクロール状況は、Google Search ConsoleのURL検査ツールを活用することで把握することができます。
具体的には、以下の手順で情報を参照することが可能です。
- Google Search Consoleにログイン
- 画面左側の「URL検査ツール」をクリック
- 表示画面の上部にある検索窓に数値を把握したい特定のURLを打ち込む
URL検査ツールでは、クロール状況だけでなく、インデックス登録の有無を確認することができます。
また、特定のページについてインデックス登録をリクエストできる機能もあるため、間接的にクロールを促すことにもつながるのです。
そのため、自社のWebサイト内でSEO対策上で重要なページについて、優先的にクロールおよびインデックスを促したい場合にも有益といえるでしょう。
まとめ
本記事では、クロールバジェットの概要や影響を与える要素、クロールバジェットを意識した具体的な対策方法などについて解説しました。
通常であれば、クロールバジェットを意識する必要はありませんが、大規模なECサイトやニュースサイトを運営している場合には、対策が必要となります。
また、これから自社のWebサイトの規模を拡大し、積極的なSEO対策に着手する場合にも、意識をしておくとよいでしょう。
もっとも、クロールの最適化はSEO対策や開発などのテクニカルな要素を多く含むため、専門知識や技術が必要となります。
事業の成長などを見据えてクロールの最適化施策に取り組む場合には、まずは専門の業者やWeb制作会社に相談することがおすすめです。
そのような場合には、TMS Partners株式会社にご依頼ください。
弊社は、Webサイトのクロール最適化施策をはじめ、サイト制作・改修や広告運用など、幅広い支援を行い、実績も豊富です。
