如何使用robots.txt中的站点地图创建网址白名单?

时间:2015-10-05 22:37:42

标签: web-crawler sitemap robots.txt whitelist

我正在尝试为抓取工具创建一个URL白名单(换句话说,我想要一个抓取工具访问的网址列表,我希望抓取工具只能访问这些文件)。

我有一个包含白名单中所有网址的站点地图。

我应该如何格式化robots.txt?

这有用吗?

User-agent: *
Disallow: /
Sitemap: sitemap.txt

或者我必须这样做吗?

User-agent: *
Disallow: /
Allow: whitelist/*
Sitemap: sitemap.txt

2 个答案:

答案 0 :(得分:0)

Sitemap和robots.txt没有直接连接。它们是不同的技术。 robots.txt文件仅用于指向站点地图文件。多数民众赞成。

因此,第一个示例不会为您提供所需的结果,因为每个页面的抓取都设置为Disallow。第二个示例是正确的,您必须将域添加到站点地图URL

User-agent: *
Disallow: /
Allow: whitelist/*
Sitemap: http://www.example.com/sitemap.txt

答案 1 :(得分:-1)

例如,像Slickplan一样,某些专业的爬虫具有“ ignore robots.txt”选项。因此,无需格式化“ robots.txt”文件。