如何禁用和删除subdomain.domain.com
被抓取并列入alexa和其他抓取工具?特别是列在我的alexa信息页面中的cpanel.domain.com
和webmail.domain.com
并且很烦人:/。
答案 0 :(得分:0)
从这篇文章:https://alexa.zendesk.com/hc/en-us/articles/200450194-Alexa-s-Web-and-Site-Audit-Crawlers
Alexa网络爬虫(机器人)在HTTP“User-agent”标头字段中将自己标识为“ia_archiver”。 Alexa Internet ia_archiver爬虫严格遵守robots.txt规则。
为防止ia_archiver访问您网站的任何部分,您的robots.txt文件应如下所示:
User-agent: ia_archiver
Disallow: /
您还可以限制特定目录的抓取。例如,要防止ia_archiver访问images目录(及其子目录):
User-agent: ia_archiver
Disallow: /images/
如果可以,您可以在子域的根目录中放置robots.txt
,但您不希望将其抓取。如果这些页面超出您的控制范围;托管服务应该/可以做这些或类似的限制。