AWSで静的ウェブサイトホスティング設定が可能であるS3(Amazon Simple Storage Service)。
サービスリリース前や開発段階のサイト構築中は、Googleなどの検索エンジンに表示させたくない場合があります。
今回は、S3の静的ウェブサイトを検索エンジンに表示されないようにする対処方法についてご紹介します。
【結論】index.htmlにnoindex設定を行う
初めに結論から申し上げます。
S3内に設置しているindex.html の <head> セクションに <meta name="robots" content="noindex"> を追加します。
設定後はgoogle search consoleのrobots.txtテスターを用いて対象のウェブサイトでクロールがブロックされているか確認しましょう。
https://support.google.com/webmasters/answer/6062598?hl=ja
調査時に苦労したこと
クローラーをブロックする方法はmetaタグだけではありません。
ドキュメントルート内にrobots.txtを設置するという方法もあります。AWSのページでもrobots.txtの利用が一般的とされています。
https://aws.amazon.com/jp/premiumsupport/knowledge-center/report-aws-resource-crawling/
しかし、Googleによると下記のように説明されていました。
https://developers.google.com/search/docs/crawling-indexing/robots/intro?hl=ja
==抜粋==
robots.txt ファイルとは、検索エンジンのクローラに対して、サイトのどの URL にアクセスしてよいかを伝えるものです。これは主に、サイトでのリクエストのオーバーロードを避けるために使用され、Google にウェブページが表示されないようにするためのメカニズムではありません。Google にウェブページが表示されないようにするには、noindex を使用してインデックス登録をブロックするか、ページをパスワードで保護します。
...
警告: robots.txt ファイルは、ウェブページを Google 検索結果に表示しないようにする目的で使用しないでください。
説明テキストの付いたページは、他のページから参照されていれば、Google はクロールすることなしに URL をインデックス登録する可能性があります。検索結果にページを表示しないようにするには、パスワード保護や noindex などの他の方法を使用してください。
==抜粋ここまで==
EC2やLightsailでウェブサイトを構築した場合はrobots.txtが有効だったのでS3もrobots.txtで対応できるものだと思っていました。S3の場合はドキュメントルートが1ファイルのみとなるためrobots.txtを指定することができません。
Goole検索から早急な削除が必要な場合
既に自身のウェブサイトがクロールされていて、直ぐに消したい場合は下記のように実施します。申請から数時間程度で検索から除外することができます。
早急に対処する必要がある場合に利用しましょう。
https://developers.google.com/search/docs/advanced/crawling/remove-information
AWSの効果的な学習方法は?

最後に、AWSの効果的な学習方法をご紹介します。
自学自習はUdemy講座
オンラインプラットフォームであるUdemyは安価で手軽にAWSの学習が可能です。
しかし、上記で紹介したような実際のAWSエンジニアが実施している構築スキルまでは教えてくれません。初心者~中級者向けの講座が多くなっています。
私も受講した、初心者向けAWS講座を下記記事でまとめています。ご参考ください。
1人で学習が難しい場合はオンラインレッスン
1人で学習が難しい場合はオンラインレッスンがおすすめです。
最近では、AWS講座を提供するオンラインレッスンも増えてきました。
料金は高くなりますが、現役エンジニアからAWSについて学ぶことができます。
本ブログ執筆者のメンタリングも受付中
本ブログを執筆している[KAITech]もメンタリングを受け付けています。
オンラインレッスンは高くて手が出せないという方は私までお気軽にご相談ください。
下記から承っております。