robots.txt生成の使い方は?
GUIでクローラーの許可・拒否ルールを設定すると、robots.txtのテキストが自動生成されます。
サイトマップURLも指定できますか?
はい。Sitemap行を含めることができ、サイトマップのURLを指定して生成できます。
robots.txtでクローラーをブロックする意味は?
管理画面や重複コンテンツなど、検索結果に表示したくないページへのクロールを制限できます。ただしインデックス防止にはnoindexタグの方が確実です。
robots.txtの設定を間違えるとどうなりますか?
Disallow: / と設定するとサイト全体がクロールされなくなり、検索結果から消える可能性があります。設定前に必ず内容を確認してください。
フレームワーク向けプリセットとは何ですか?
WordPress・Next.js・Laravelなど人気のフレームワークでよく使われるrobots.txtの設定を、ワンクリックで自動入力できる機能です。各フレームワーク特有のディレクトリ構成に合わせた推奨設定が用意されています。
プリセットの設定内容はカスタマイズできますか?
はい。プリセットを適用した後、パスの追加・削除やUser-Agentの変更など自由にカスタマイズできます。プリセットはあくまで初期値として設定されるため、そこから自分のサイトに合わせて調整してください。
Disallow: / と Disallow: /* の違いは何ですか?
Disallow: / はサイト全体をブロックする標準的な書き方で、Disallow: /* はワイルドカード(*)を使って同じ結果を狙っています。ほとんどのクローラーは両者を同じに解釈しますが、Disallow: / が正式な仕様です。
Crawl-delay と Request-rate はどう使い分けますか?
Crawl-delayはリクエスト間隔を秒単位で指定(例:2 = 2秒待機)し、Request-rateはリクエスト数/期間で指定(例:1/5 = 5秒に1リクエスト)します。シンプルなサーバー負荷制限ならCrawl-delay、細かい制御が必要ならRequest-rateが適しています。
複数のUser-Agentに異なるルールを設定する際、順序は重要ですか?
はい、非常に重要です。より具体的なUser-Agent(例:Googlebot)を先に指定し、その後に汎用的なルール(User-Agent: *)を指定するべきです。クローラーは最初に該当するルールを適用するため、順序を間違えると意図しない設定になります。
生成した robots.txt を確認するには、どこを見ればいいですか?
デプロイ後、ブラウザのアドレスバーに『https://example.com/robots.txt』と入力してアクセスできます。このツールでS3にアップロードする場合は、CloudFront URL(https://d3qfre5um9fqwb.cloudfront.net/robots.txt)で確認しましょう。
Allow と Disallow を同時に使う場合、どちらが優先されますか?
Disallow が優先されます。例えば『Disallow: /private/』を指定しながら『Allow: /private/public/』と記述しても、/private/ 配下はすべてブロックされます。より具体的なパスで例外を許可したい場合は、設定順序と パターン マッチングルールを確認が必要です。
ワイルドカード(*)は robots.txt のどこで使用できますか?
ワイルドカードはパスの値(Disallow / Allow)に使用でき、User-Agent には使えません。例:『Disallow: /*.pdf』でPDFファイルをブロック、『Disallow: /search?*』でクエリ付きURLをブロックできます。ただし、一部の古いクローラーはワイルドカードに対応していない場合があります。