SEO対策する前に知っておきたい、Googleのクローラーとインデックスの仕組み

スポンサーリンク





みなさんはGoogleのクローラーとインデックスの仕組みをご存知ですか?インターネット上で検索を行った際に、検索結果はどんな仕組みで作られているのか、気になったことはありませんか?

検索の順位を上げるためにSEO対策を行うのなら、その前に検索の仕組みを理解しておかなければなりません。アルゴリズムによって評価のされることは理解していても、なかなか検索のことは考える人は少ないかもしれません。ユーザーの使いやすさ、情報の正確さなど、Googleはどこから情報を持ってきているのでしょうか?

ここではGoogleのクローラーとインデックスの仕組みについてご紹介します。

検索エンジンの仕組みはどうなっているの?

「Google」「Yahoo」など多くの検索エンジンがありますが、検索結果に違いがあることをご存知でしょうか?

Yahooの検索エンジンは、2010年にGoogleの検索エンジンを利用することが決定しました。同じ検索エンジンを利用しているのに、なぜ検索結果に違いが生まれてしまうのでしょうか?これは、Yahooの検索エンジンのシステムはGoogleと同じものですが、フィルターをかけることによって違いを作っているからです。

Yahooカテゴリに登録されているコンテンツが上位に表示されますし、間違った情報に対するペナルティの基準は変わります。また、Yahooで独自のサービスを表示することがありますので、順位が変動することもあります。そのため、GoogleとYahooでは同じ検索エンジンを利用していても、順位が変わってしまうことになるわけですね。そして、検索エンジンの仕組みは「クローラー」と「インデックス」によって情報が集められています。それでは、クローラー、インデックスの特徴を見ていきましょう。

クローラーってなに?

クローラーは世界中にあるWeb上のページ情報を集めるもので、有名なものは「Googlebot」とよばれ、世界中のコンテンツの情報を集めています。Web上のリンクを通っていき、様々なWebコンテンツを情報収集のために回っています。

Webサイトを這うように情報収集するので「クロール」と呼び、情報収集をするためのロボットを「クローラー」と呼ぶようになりました。クローラーにコンテンツの情報を収集させなければ、検索しても表示されることはありません。

クローラーはWeb上のリンクを通って巡回してくるので、リンクが通っていない新しいサイトにはクローラーが巡回にくることはありません。そのため、新しいサイトを作っただけでは検索結果に出てこないのです。さらに、サイトマップを作成していない場合、せっかく自分のサイトにクローラーがきても、どこを巡れば良いのかわからず巡回しないページが出てきてしまいます。そのため、例えばトップページだけは出てくるけど他のページが中々出てこないということもあり得ます。まずはクローラーに自分のサイトに来てもらい、全てのページを巡回してもらうことを目指しましょう。逆に、リンク切れのリンクが残っていることはクローラーを惑わす要因となります。SEO上低い評価を受けることもあるので気を付けましょう。

また、クローラーに1日何回クロールされているか、ということは余り気にされることはありませんが実はSEOの指標の1つです。よく更新頻度を上げると順位が上がりやすいと言われています。しかし、順位向上の直接的な原因は更新頻度が上がることではなく、それにより多くの回数クローラーが自分のホームページを訪れるためです。何度も訪問することで、クローラーがより多くの情報を持ち帰ることで、評価を受けやすくなると言われていて、1日当たり平均60ページ以上見られているとSEOの効果が現れだすと言われています。

新しいコンテンツを作成しサイト内の構成を変更してあげて、リンク切れになっているリンクは外していけば、より効率的にクローラーが巡回してくれるようになります。

クローラーのムダをなくすrobots.txtってなに?

みなさんはrobots.txtを使ってクローラーがスムーズに巡回できる環境を作っていますか?robots.txtとは、やってきたクローラーに対して、クロールをブロックしたり、逆に許可したりする命令が出せるファイルのことです。

「クローラーをブロックしたらインデックスされなくなるのでは?」と思いますよね。確かにクローラーをブロックするということは、クローラーに情報を渡さずインデックスを受けないということになります。それでは逆効果じゃないの?と感じるかもしれませんが、robots.txtを有効活用することで、クローラーの最適化を目指せるようになるんです。

例えば、情報量で言うとものすごい少ないページだが、ユーザビリティ的には意味のあるページ等の場合、ブロックすることでクローラーに重要な情報だけを渡すことが可能になるため、インデックスがスムーズに進むようになります。また、サイト内検索結果ページや自動生成ページなどもrobots.txtで制御すると良いと言われています。効果的にrobots.txtを使い、重要な情報だけを持って帰らせましょう。

インデックス

検索エンジンはクローラーが持ってきた情報をわかりやすく保存していきます。ホームページの情報が検索エンジンのデータベースの中に保存されることをよく「インデックスされた」といいます。例えば、りんごについての解説をするページを作ったとしても、誰かに「りんご」と検索された時に検索エンジンのデータベースに登録されていなければ検索結果に表示されません。インデックスがないと検索エンジンは検索結果を表示することができません。そのため、検索結果に表示されるサイトはインデックスされたサイトだけ、ということになります。

そうなると、あなたのサイトがちゃんとインデックスされているのかを確認する必要がありますよね。Googleの検索エンジンから、「site:サイトのドメイン」と検索してみると、インデックスされているか確認することができます。これは、このドメインのサイトを検索します、という命令文のようなもので、検索をしてみてサイトが表示されなければ、まだインデックスされていない状態ということになります。

インデックスされていない時はどうすればいいの?

インデックスされていないのなら、まだクローラーが来ていないという証拠となります。いつかはクローラーが来てくれるかもしれませんが、それがいつになるかはわかりません。そんな時は「Search Console」へ登録して、Googleにサイトマップを渡してあげましょう。Wordpressを利用している方はプラグイン等で作成することもできます。また、「Search Console」の中のFetch as Googleという機能を使うことで、Googleにインデックスをしてもらうリクエストを送ることができます。まだ、インデックスされていないという人はぜひ試してみて下さい。

またSEO対策としてインデックスの数を増やそうとする方もいますが、インデックスの数が多ければ検索順位が上がるというわけでもありません。もちろん、まだ全然インデックスされていない状態や、重要なページがインデックスされていない場合は効果がありますが、質の低いページを大量にインデックスさせるよりは、ひとつひとつのコンテンツを充実させた方がSEO対策の効果は出てくるでしょう。

まとめ

今回は、Googleのクローラーとインデックスの仕組みについてご紹介させていただきました。どれだけ立派なコンテンツを作成していても、クローラーに情報を渡してインデックスされなければ、検索結果に表示されることはありません。

そのため、多くのサイトではクローラーが巡回しやすいサイト作りを目指しています。また、インデックスされない場合に備えて、サイトマップを用意して渡すこと、サーチコンソールを通してインデックスをリクエストすることを覚えておきましょう。

スポンサーリンク



記事をシェアお願いします