クローリングとは?重要性や対策方法|SEO初心者のための完全ガイド


「クローリングとはどのようなもの?」
「クローリングが重要と言われるのはなぜなのか?」
「具体的なクローリング対策の方法について知りたい」
企業の経営者やマーケティング部門の担当者の中には、このような疑問やお悩みをお持ちの方もいらっしゃるかと思います。
クローリングとは、プログラムがWebサイトを巡回し、そのWebページに掲載されている情報を収集・保存することです。
このプログラムは検索エンジンが保有しており、クローリングによって収集された情報をもとにして検索結果などに影響を与えます。
そのため、特にWeb領域のマーケティングやSEO対策をこれから進められる方にとっては、クローリング対策は避けては通れない施策の1つといえます。
もっとも、クローリング対策はWeb施策の中でも後回しにされることが多く、また、どのような点を意識すべきかが分からないということもあります。
本記事では、WebマーケティングやSEO対策におけるクローリングの意義や対策方法などについて解説します。
クローリング対策を行うことで、検索エンジン側に認知されやすくなり、検索結果の上位に表示されることを期待できます。
そのため、検索ユーザーに認知されやすくなり、自社商品・サービスの認知度向上や購買意欲の醸成などにつなげることが可能です。
これからSEO対策に着手される方はもちろん、自社のWebサイトへのアクセス数が伸び悩んでいる方も、ぜひ参考にしてみてください。
1.クローリングとは
先ほども述べたように、クローリングとは、プログラムがリンクを通じてWebサイトを巡回し、そのWebサイトに関する情報を収集・保存する仕組みをいいます。
検索エンジンを通じて表示される検索結果には、クローリングによる情報の収集・保存が前提となるため、SEO対策などのWeb施策では重要な意味を持つことを押さえておきましょう。
なお、クローリング対策を進めていくためには、まずはクローリングの概念を把握することが必要不可欠です。
具体的には、以下のポイントを押さえておきましょう。
- 検索エンジンにおけるクローリングの役割
- クロールバジェットとは
- スクレイピングとの違い
順にご説明します。
なお、SEOの概要や基本概念については、以下の記事で詳しく解説していますので、合わせてご参照ください。
また、効果的なSEO対策の具体例やポイントについては、以下の記事もご覧ください。
(1)検索エンジンにおけるクローリングの役割
クローリングは、自律的に作動するプログラム(クローラー)によって行われます。
自律的なプログラムであることから、クローラーのことを「ボット」や「ロボット」と表現することがあります。
収集されたWebサイトの情報は、クローラーが属する検索エンジンのデータベースに送られ、保存されます。
検索エンジンは、データベースに保存された情報をもとにして、検索結果の表示の順位を決めます。
そのため、検索結果の表示は、あくまで検索エンジンのアルゴリズムによって決定されます。
その意味で、クローリングそれ自体が検索結果に直接影響を及ぼすものではないことに注意が必要です。
しかし、クローリングの機能と検索エンジンの機能は密接に関わっているともいえるため、クローリングは検索エンジンの機能の一部と理解することもできるでしょう。
なお、検索エンジンの仕組みや順位が決まる要素などについては以下の記事も参考になります。
(2)クロールバジェットとは
クロールバジェットとは、クローリングの主体であるクローラーが1つのWebサイトを巡回できる上限を意味する概念です。
クローラーは常にWebサイトの情報を収集・保存するために巡回を行っていますが、すべてのWebサイトについて巡回を行っているわけではありません。
それは、上記で述べたようなクロールバジェットという概念があるからです。
特にクローリングはWebサイト上のリンクからリンクへと移動することで行われます。
そのため、URLの数が多い大規模なWebサイトなどでは、すぐにクローリングの上限に達してしまい、効率的なクローリングが行われない可能性が高まることに注意が必要です。
何度も述べているように、検索結果に表示されるためには、まずはクローラーにWebサイトを認識してもらい、巡回を促すことが必要不可欠です。
効率的なクローリング対策を行うためには、このようなクロールバジェットという概念も押さえておくことが重要といえます。
なお、クロールバジェットについては、単にURLの数の多さだけで決まるわけではありません。
具体的には、以下の要素によって決まるとされています。
- Webサイトの応答速度
- コンテンツの人気度
- URLの新旧 など
そのため、クローリングを促すためには、Webサイトの全体的な要素について注意や工夫をこらす必要があることも押さえておきましょう。
クロールバジェットの詳細については、以下の記事で詳しく解説しています。
(3)スクレイピングとの違い
クローリングと類似の概念にスクレイピングというものがあります。
スクレイピングもWebサイトを巡回して情報を収集する点では、クローリングと似ているといえます。
もっとも、クローリングとスクレイピングでは、収集する情報に違いがあります。
スクレイピングでは、WebサイトのHTMLから必要な情報のみを収集します。
具体的には、以下のような情報です。
- タイトル
- 見出し
- 指定された言葉やフレーズ など
これに対して、クローリングではWebサイト全体の情報が収集されます。
しかし、クローリングによって取得された情報の中には、不要な情報や特に用途がないような情報が含まれていることもあります。
その意味で、スクレイピングとは、そのような膨大な情報の中から必要な情報のみを取得する技術といえます。
なお、スクレイピング自体がSEO対策上で重要な意味を持つことはあまりありません。
また、クローリングとスクレイピングには厳密な定義はなく、しばしば混同されてしまうことも少なくありません。
そのため、さしあたってはクローリングの方がSEO対策上での重要度がより高いことを押さえておきましょう。
2.クローリングが重要な理由
上記で述べたように、クローリング自体によって検索結果の順位が決定されるわけではありません。
もっとも、自社サイトが検索結果の上位に表示されるためには、クローリングされることが前提となります。
取得されたWebサイトの情報は、検索エンジンのデータベースに集積される際にインデックスと呼ばれる処理が施されます。
そして、検索エンジンが検索結果に表示させる情報は、このインデックスが施されたものを対象としているのです。
そのため、クローリングがされなければインデックス処理も行われず、検索結果に表示されることもありません。
その意味で、クローリングは間接的にSEO対策上の影響があるといえます。
なお、すでに述べたように、クローラーはすべてのWebサイトを巡回するわけではなく、クロールバジェットによっても左右されます。
特に新しく立ち上げたWebサイトや更新された直後のWebページについては、上記のようなクローリングの性質上、優先的に巡回させることが重要といえるでしょう。
早期にクローリングされることで、インデックス処理が施され、検索結果に反映されやすくなります。
そうすることで、検索ユーザーにも自社サイトを見つけてもらえやすくなり、サイトへのアクセス数増加を見込むことが可能です。
もっとも、クローラーに見つけてもらうためには、クローラビリティを意識したWebサイト設計が必要不可欠です。
クローラビリティとは、クローラーから見たWebサイトの視認性を意味する概念です。
具体的には、Webサイトの内部リンクの設計やコンテンツ内容などの複数の要素によって決まるとされています。
そのため、Webサイトの新規立ち上げやコンテンツの更新などを行った場合には、クローラビリティを意識することも重要といえます。
なお、具体的なクローリング対策の方法については、6で詳しく解説します。
3.クローリングの仕組み
クローラーは自律的に作動するプログラムであるため、クローリングには一定の仕組みが存在します。
具体的には、以下のような流れで行われます。
- Webサイトの発見と情報の取得
- インデックス処理
- 洗い出し
順に見ていきましょう。
(1)Webサイトの発見と情報の取得
クローラーが特定のWebサイトを発見すると、URLを通じてアクセスします。
Webサイトにリンクがあれば、リンクをたどってすべてのページを巡回します。
なお、クローリングの対象となるのは多くのファイルですが、その中でも特にHTMLファイルが代表的です。
また、以下のようなファイルもクローラーが収集する情報に含まれています。
- PDFファイル
- HTMLファイルで参照されるCSSやJavaScript
- Word
- PowerPoint
- 画像や動画 など
このように、クローリングの対象となる情報は多岐にわたります。
なお、クローラーは原則として上部の階層のWebページから巡回を始めます。
つまり、トップページを中心としてリンクをたどり、Webサイト内を巡回することになるのです。
そのため、新規ページや更新ページを上部に構築・設計することで、早期にクローラーの巡回を促すことができます。
もっとも、この方法ではクローラーの巡回を待たなければならないことに注意が必要です。
特定のWebサイトやページについてクローラーの巡回を促す方法については、5で後述します。
(2)インデックス処理
クローラーがWebサイトを巡回して取得した情報は、インデックス処理が施され、検索エンジンのデータベースへと送られます。
具体的には、どのWebサイトがどのような情報を掲載しているかについて、インデックス処理が行われることで整理されるのです。
そのため、クローラーが取得した情報がそのままの状態でインデックス化されるわけではなく、「インデクサ」と呼ばれるプログラムによって変換処理が行われます。
また、クローラーが取得した情報のすべてがインデックス処理の対象となるわけではありません。
具体的には、以下のような情報はインデックス処理が行われません。
- インデックスする価値のないページと判断された情報
- ページの表示に時間がかかるような情報
- 重複したページや情報
- ソフト404などのエラーと判断された情報 など
特にコンテンツの質や専門性が低いと判断された場合には、インデックスする価値のないページとしてインデックス処理がされないため、注意が必要です。
そのため、良質なコンテンツ制作を行うこともクローラーの巡回とインデックス処理を促す上では重要といえます。
(3)洗い出し
インデックス処理を終えた後も、クローラーはWebサイトの巡回を継続します。
具体的には、既知のWebサイトを起点としながらリンクをたどってインターネット上を巡回します。
このようにして、新たなWebサイトやページの洗い出しを行うのです。
これを繰り返すことによって、検索エンジンのデータベースにはインデックス処理された情報が蓄積されていきます。
検索エンジンは、インデックスされた情報について並び替えを行い、検索ユーザーが特定のキーワードやクエリで検索してきた際に最適な情報を取り出してランク付けを行うのです。
4.クローリング状況を確認する方法
上述のように、クローリングとそれに伴うインデックス処理は、検索エンジンにおける検索結果の表示順位に関わるため、SEO対策上は重要ということができるでしょう。
しかし、クローラーがどの時点でどのWebサイトについてクローリングを行っているかを予測することは難しいです。
もっとも、自社のWebサイトがクローリングされているかどうかを確認する方法があります。
具体的には、以下の2つです。
- Google Search Consoleで確認する
- サーバーログから確認する
それぞれについて、どのようなものか見ていきましょう。
(1)Google Search Consoleで確認する
Google Search Consoleとは、Google社が提供している分析ツールです。
ほかのツールとは異なり、検索ユーザーがどのようなキーワードで検索を行い、その結果どのような表示がされたかのデータを把握することができます。
また、クローラーの巡回状況についても把握することができ、インデックス処理がなされているかどうかだけでなく、特定のページのクローリング状況を確認することも可能です。
さらに、特定のページだけでなく、Webサイト全体のクローリング状況を確認することもできます。
具体的には、以下のようなデータを把握することが可能です。
把握できるデータの種類 | データの内容 |
クロールリクエストの合計数 | 1日あたりのクロール数・頻度 |
合計ダウンロードサイズ | クローラーが取得した情報の合計バイト数 |
平均応答時間 | クローリングで読み込まれたリソースの平均レスポンス時間 |
この中でも特に重要な指標が「クロールリクエストの合計数」と「平均応答時間」です。
クローラーは1回の巡回でWebページのすべての情報を取得するわけではありません。
そのため、繰り返しWebページを巡回してもらい、情報の読み取りをしてもらうことがWebサイト全体の価値を検索エンジンに正確に評価されるためには必要不可欠なのです。
そのため、クローラーがどのような頻度で巡回を行っているかを示す「クロールリクエストの合計数」は非常に重要といえます。
なお、「クロールリクエストの合計数」は、「平均応答時間」によっても左右されます。
検索エンジンは、クローラーの巡回頻度について制限をかけていることが多いです。
これは、Webサイトのサーバーに負荷をかけないためです。
そのため、ページの表示速度が遅いような場合には、クローラーはサーバーへ負荷がかかると判断し、巡回の頻度を下げてしまいます。
このように、上記のような2つの指標はお互いに影響を及ぼし合うことを押さえておきましょう。
なお、ページの表示速度はSEOだけでなく、さまざまな影響を及ぼす可能性があります。
ページの表示速度が遅くなる要因や解決方法などについては、以下の記事で詳しく解説しています。
(2)サーバーログから確認する
Webサイトのサーバーにあるアクセスログから確認することもできます。
アクセスログとは、Webサイトにどのようなアクセスがあったかを記録しているものです。
具体的には、アクセス時間やアクセス地域、検索キーワードなどの詳細な情報を把握することができます。
なお、クローラーのアクセス履歴についてもアクセスログに残るため、アクセスログを用いることでGoogle Search Consoleよりも詳細な情報を取得することが可能です。
例えば、どのクローラーがWebサイトを巡回したかの情報はもちろん、ディレクトリやテンプレート単位でのクローリング状況も把握することができます。
また、継続的にアクセスログを把握することで、中長期的な課題が可視化されるという効果も期待できます。
例えば、1か月ごとにアクセスログの解析を行うことで、どのページがどのような頻度でクロールされたかを把握することが可能です。
自社サイトの中でも重要なコンテンツと位置づけているページについてクローラーが巡回していない場合には、上位の階層にページを配置するなどの対応が必要となるでしょう。
アクセスログの解析やそれに基づく施策の立案は、Google Search Consoleによるクローリング状況の把握と比較すると、難易度が高いことも多いです。
しかし、より高度なSEO対策を行い、中長期的な視点で自社サイトへのアクセス数の増加や売上の拡大などを目指す場合には、有効な手段といえるでしょう。
5.クローリングさせるための方法
自社のWebサイトがクローリングされるかどうかは、クローラー次第ということになります。
そのため、クローラーに巡回されない限りはインデックス処理も行われず、検索エンジンの検索結果にも表示されないことになってしまいます。
もっとも、Webサイトに対してクローリングがされていない場合には、サイト制作者や運営者側でクローラーの巡回を促すことも可能です。
具体的には、以下のような方法が考えられます。
- XMLサイトマップを送信する
- URL検査ツールを利用する
自社のWebサイトでクローリングされていないページがあったり、Webサイト自体がクローリングされていなかったりする場合には、これらの方法を試してみましょう。
(1)XMLサイトマップを送信する
クローリングを促す代表的な方法には、自社のWebサイトのXMLサイトマップをGoogle側に送信する方法があります。
XMLサイトマップとは、Webサイト内にどのようなページが存在するのかについて検索エンジン側に伝えるために設置するファイルのことです。
検索エンジンにXMLサイトマップを送信するためには、Google Search Consoleを通じて行う必要があります。
この方法によるメリットは、特定の条件をサイト制作者や運営者側が指定して、Google社に対して直接クローリングを促すことができる点にあります。
例えば、「情報が更新されたページ」や「更新頻度」など、ファイルの情報を設定することで、Webサイト全体のクローリングを促すことができるのです。
XMLサイトマップの作成方法や注意点、効果的な運用方法などの詳細については、以下の記事で詳しく解説しているので、合わせてご参照ください。
(2)URL検査ツールを利用する
URL検査ツールもGoogle Search Consoleにある機能の1つです。
XMLサイトマップを利用する場合とは異なり、URL検査ツールでは、ページ単位でのクローリングを促すことができます。
具体的には、Webサイト上の個々のページについて、クローラーのインデックス登録をリクエストすることが可能です。
すでに述べてきたように、インデックス処理が行われるためには、クローラーがWebサイト上を巡回することが欠かせません。
そのため、間接的にクローリングを促すことができるのです。
例えば、自社のSEO対策上で重要なページについてクローリングがされていない場合には、URL検査ツールを用いることで、インデックス処理まで促すことができます。
また、新たにWebサイトを立ち上げたばかりのときは、サイト全体のクローリングが活発ではない場合もあります。
そのような場合には、ページの更新を行ったとしても、クローリングがなかなかされないということも考えられるでしょう。
URL検査ツールを用いることで、そのような場合にも、重要度が高いページに対して優先的にクローリングとインデックス処理を促すことができるのです。
6.SEO効果を高めるクローリング対策方法
クローリングおよびインデックス処理はSEO対策上、重要な意味を持ちます。
そのため、新たにWebサイトを立ち上げたり、これからSEO対策に注力していったりする場合には、避けては通れないのがクローリング対策といえます。
もっとも、クローリングを促す対策を行っても、WebサイトやWebページ自体に問題があれば、クローリングとインデックス処理を促すことは難しくなってしまうことに注意が必要です。
具体的には、以下のような対策を行うことが有益です。
- URLの正規化を行う
- クローラーを適切に制御する
- ページの表示速度を改善する
- 内部リンク構造を最適化する
- 良質なコンテンツを制作する
これらは、先ほども述べたクローラビリティにも関わる要素です。
そのため、クローラビリティを意識したサイト制作がSEO効果を高めるクローリング対策に直結するといえるでしょう。
(1)URLの正規化を行う
URLの正規化とは、1つのページに対して複数のURLが存在する場合に、SEO評価などの対象となるURLをただ1つに定める施策です。
例えば、同じページでも、PC用とSP(スマホ)用とで異なるURLを使用しているケースもあります。
そのような場合には、別々のURLで評価が行われることで、SEO評価が分散してしまうリスクがあるのです。
また、クローリング対策という観点からは、1つのページに複数のURLが存在する場合、クローラーは巡回頻度を減らしてしまうことに注意が必要です。
そのため、URLの正規化を行うことは、クローラーの巡回頻度を維持し、ページに対するSEO評価を分散させないためにも重要なポイントといえます。
なお、URLの正規化を行っていない場合には、重複ページと判断されてSEO評価上も悪影響を及ぼすリスクがあります。
URLの正規化を行っていない場合には、クローラビリティとSEOの双方の観点から、速やかに処理を行うことが望ましいといえるでしょう。
(2)クローラーを適切に制御する
Webサイトの中には、重要度の高くないページも含まれていることがあります。
具体的には、上位表示をさせる必要のないページや404ページなどがこれにあたります。
このようなページをクローラーが巡回することで、ほかに重要度の高いページがあるにも関わらず、そのページがクローリングされないケースもあるのです。
そのような場合には、タグを用いてクローラーの巡回を制限することもできます。
例えば、クローラーの巡回を制限するタグには以下のようなものがあります。
タグの種類 | 内容 |
robots.txt | 特定のページへのクローリングを許可しないファイル |
meta robots nofollow | ページ内のすべてのリンク先へのクローリングを許可しないタグ |
nofollow | 特定のリンクへのクローリングを許可しないタグ |
.htaccess | 特定のディレクトリ内のファイルへのクローリングを許可しないファイル |
meta robots noindex | 検索結果に表示させないようにするタグ |
このように、目的に応じて適切にクローラーを制御することもクローリング対策としては重要です。
なお、以下の記事も合わせてご参照ください。
(3)ページの表示速度を改善する
ページの表示速度が遅い場合には、クローラーは巡回の頻度を落としてしまいます。
そのため、ページの表示速度が遅い場合には、これを改善することがクローリング対策上でも重要です。
特にGoogle Search Consoleで参照する指標である「平均応答時間」が数秒程度になっている場合には、改善が必要です。
具体的には、ファイルの圧縮や不要なソースコードの削除などの対応が挙げられます。
また、ページの表示速度が遅い場合には、サイトを訪問したユーザーが離脱する可能性も高まってしまいます。
そうすると、サイトへのアクセス数が減少するなど、SEO上でも好ましくない影響が現れることに注意が必要です。
なお、ページの表示速度はサーバーのスペックにも左右されます。
そのため、必要に応じてサーバーのスペックを向上させるなどの対策も検討するようにしましょう。
なお、ページの表示速度を計測するツールの概要や使い方などについては、以下の記事で解説しています。
(4)内部リンク構造を最適化する
クローラーは特定のページを起点としてリンクをたどりながらサイト内をクローリングしていきます。
そのため、ページには適切な内部リンクを設定することが重要です。
内部リンクを設定することで、クローラーはサイト内部をスムーズに巡回することができ、これによってクローリングとインデックス処理を促すことができます。
また、サイト内部のリンク構造を最適化することで、サイトを訪問した検索ユーザーが欲しい情報にたどりやすくなり、ユーザビリティが向上する側面もあるのです。
サイト内部の構造の考え方やSEOへの影響などについては、以下の記事で詳しく解説していますので、ぜひご覧ください。
(5)良質なコンテンツを制作する
有効なクローリング対策を行うためには、良質なコンテンツを制作することが最も重要といえます。
すでに述べているように、クローラビリティを決定する要素には、コンテンツの質や専門性も含まれています。
ここにいう良質なコンテンツとは、検索ユーザーにとって有益な情報が豊富に含まれていることを意味するのです。
つまり、検索ユーザーにとって有益なコンテンツを制作することは、クローリング対策にもつながるのです。
また、品質の低いコンテンツがある場合には、定期的にリライトを加えて品質の向上を図るなど、継続的な対策が欠かせません。
良質なコンテンツを継続的に制作し続けることで、外部サイトから被リンクを獲得することにもつながります。
そうすると、被リンクを起点とするクローリングの活発化も期待できるのです。
このように、ユーザーにとって良質なコンテンツを制作し続けることで、さまざまなメリットを享受することにつながります。
SEOにおける被リンクの重要性や獲得方法などの詳細については、以下の記事で詳しく解説していますので、合わせてご参照ください。
まとめ
本記事では、クローリングの概念や仕組み、SEO対策上の影響などについて解説しました。
制作したコンテンツが検索エンジンに評価され、検索ユーザーのもとに届くまでは、クローリングとインデックス処理が行われることが必要不可欠です。
そのため、自社のWebサイトやコンテンツが検索結果の上位に表示されるためには、クローリング対策を行うことが重要といえます。
もっとも、クローリング対策はサイト制作や戦略設計とも関わるため、専門知識や経験がなければ有効な対策を行うことが難しい場合がほとんどです。
そのような場合には、TMS Partners株式会社へご依頼ください。
弊社は、Webサイトのクローリング対策をはじめ、サイト制作や広告運用など、幅広い支援を行い、実績も豊富です。
