【noindex】S3静的ウェブサイトでクローラーをブロックする

AWSで静的ウェブサイトホスティング設定が可能であるS3（Amazon Simple Storage Service）。

サービスリリース前や開発段階のサイト構築中は、Googleなどの検索エンジンに表示させたくない場合があります。

今回は、S3の静的ウェブサイトを検索エンジンに表示されないようにする対処方法についてご紹介します。

【結論】index.htmlにnoindex設定を行う

初めに結論から申し上げます。

S3内に設置しているindex.html の <head> セクションに <meta name="robots" content="noindex"> を追加します。

設定後はgoogle search consoleのrobots.txtテスターを用いて対象のウェブサイトでクロールがブロックされているか確認しましょう。

https://support.google.com/webmasters/answer/6062598?hl=ja

調査時に苦労したこと

クローラーをブロックする方法はmetaタグだけではありません。

ドキュメントルート内にrobots.txtを設置するという方法もあります。AWSのページでもrobots.txtの利用が一般的とされています。

https://aws.amazon.com/jp/premiumsupport/knowledge-center/report-aws-resource-crawling/

しかし、Googleによると下記のように説明されていました。

https://developers.google.com/search/docs/crawling-indexing/robots/intro?hl=ja

＝＝抜粋＝＝

robots.txt ファイルとは、検索エンジンのクローラに対して、サイトのどの URL にアクセスしてよいかを伝えるものです。これは主に、サイトでのリクエストのオーバーロードを避けるために使用され、Google にウェブページが表示されないようにするためのメカニズムではありません。Google にウェブページが表示されないようにするには、noindex を使用してインデックス登録をブロックするか、ページをパスワードで保護します。

...

警告: robots.txt ファイルは、ウェブページを Google 検索結果に表示しないようにする目的で使用しないでください。

説明テキストの付いたページは、他のページから参照されていれば、Google はクロールすることなしに URL をインデックス登録する可能性があります。検索結果にページを表示しないようにするには、パスワード保護や noindex などの他の方法を使用してください。

＝＝抜粋ここまで＝＝

EC2やLightsailでウェブサイトを構築した場合はrobots.txtが有効だったのでS3もrobots.txtで対応できるものだと思っていました。S3の場合はドキュメントルートが1ファイルのみとなるためrobots.txtを指定することができません。