禁用抓取不需要的子域

时间:2014-10-02 06:51:47

标签: subdomain web-crawler alexa

如何禁用和删除subdomain.domain.com被抓取并列入alexa和其他抓取工具?特别是列在我的alexa信息页面中的cpanel.domain.comwebmail.domain.com并且很烦人:/。

1 个答案:

答案 0 :(得分:0)

从这篇文章:https://alexa.zendesk.com/hc/en-us/articles/200450194-Alexa-s-Web-and-Site-Audit-Crawlers

Alexa网络爬虫(机器人)在HTTP“User-agent”标头字段中将自己标识为“ia_archiver”。 Alexa Internet ia_archiver爬虫严格遵守robots.txt规则。

为防止ia_archiver访问您网站的任何部分,您的robots.txt文件应如下所示:

User-agent: ia_archiver
Disallow: /

您还可以限制特定目录的抓取。例如,要防止ia_archiver访问images目录(及其子目录):

User-agent: ia_archiver
Disallow: /images/

如果可以,您可以在子域的根目录中放置robots.txt,但您不希望将其抓取。如果这些页面超出您的控制范围;托管服务应该/可以做这些或类似的限制。