标签: scrapy
我试图避免对所有包含参数的URL进行爬网,因为我要爬网的站点存在几乎无限的参数URL的严重问题
我尝试使用以下规则排除所有参数,但目前似乎没有任何作用。
rules = ( Rule(LinkExtractor(), callback='parse_item', follow=True), Rule(LinkExtractor(deny_domains=["?query", "?"])), )
我仍在尝试解决此问题,但是任何帮助都将是惊人的。预先感谢。