我正在尝试为抓取工具创建一个URL白名单(换句话说,我想要一个抓取工具访问的网址列表,我希望抓取工具只能访问这些文件)。
我有一个包含白名单中所有网址的站点地图。
我应该如何格式化robots.txt?
这有用吗?
User-agent: *
Disallow: /
Sitemap: sitemap.txt
或者我必须这样做吗?
User-agent: *
Disallow: /
Allow: whitelist/*
Sitemap: sitemap.txt
答案 0 :(得分:0)
Sitemap和robots.txt没有直接连接。它们是不同的技术。 robots.txt文件仅用于指向站点地图文件。多数民众赞成。
因此,第一个示例不会为您提供所需的结果,因为每个页面的抓取都设置为Disallow。第二个示例是正确的,您必须将域添加到站点地图URL
User-agent: *
Disallow: /
Allow: whitelist/*
Sitemap: http://www.example.com/sitemap.txt
答案 1 :(得分:-1)
例如,像Slickplan一样,某些专业的爬虫具有“ ignore robots.txt”选项。因此,无需格式化“ robots.txt”文件。