Scrapy Deny查询/参数URL

时间:2019-04-02 13:18:53

标签: scrapy

我试图避免对所有包含参数的URL进行爬网,因为我要爬网的站点存在几乎无限的参数URL的严重问题

我尝试使用以下规则排除所有参数,但目前似乎没有任何作用。

rules = (
    Rule(LinkExtractor(), callback='parse_item', follow=True),
    Rule(LinkExtractor(deny_domains=["?query", "?"])),
)

我仍在尝试解决此问题,但是任何帮助都将是惊人的。预先感谢。

0 个答案:

没有答案