读取robots.txt文件

时间:2019-01-27 16:52:22

标签: web-crawler robots.txt

在以下robots.txt文件中,该命令表示不允许使用magpie-crawler的所有目录。假设我使用了Scrapy等其他网络爬虫。这个robots.txt文件未列出任何其他内容,因此,允许抓取的漫游器抓取吗?

User-agent: magpie-crawler
Disallow: /


Sitemap: https://www.digitaltrends.com/sitemap_index.xml
Sitemap: https://www.digitaltrends.com/news.sitemap.google.xml
Sitemap: https://www.digitaltrends.com/image-sitemap-index.xml

2 个答案:

答案 0 :(得分:0)

根据official website,这确实意味着仅禁止使用单个bot。如果需要,可以使用Scrapy。

如果他们愿意,他们只能允许一个机器人:

User-agent: Google
Disallow: 

User-agent: * 
Disallow: /

答案 1 :(得分:0)

您可以使用Scrapy解析数据。只需在标题中说明您是Scrapy设置中的WEB浏览器:

'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'