如何在scrapys LinkExtractor上应用re.IGNORECASE?

时间:2019-07-04 13:14:34

标签: python regex scrapy

我正在设置一个抓痒的CrawlSpider,并希望限制链接,这些链接将通过LinkExtractor进行爬网。我正在使用正则表达式作为参数“ allow”。如何将正则表达式标志IGNORECASE添加到我的语句中?

现在,我将两个选项都包含在“ |”中,该选项可以正常工作,但似乎不太像Python。

from scrapy.linkextractors.lxmlhtml import LxmlLinkExtractor

rules = (Rule(LxmlLinkExtractor(allow="Zahl|zahl),callback="parse_item", follow=True),)

我想有一个解决方案,它不会迫使我用大写和小写来编写每个选项。

0 个答案:

没有答案