Question

我是使用scrapy和正则表达式的新手，但经过研究，他们似乎是我提取链接的最佳解决方案，我希望scrapy能够遵循。我试图从我的起始URL跟踪仅包含特定州缩写的链接，但我遇到的问题是包含缩写的URL不统一它们有不同的长度，不同数量的前导和尾随字符以及我的生活无法找出正确的正则表达式来喂养scrapy以遵循我想要的链接。任何有关这方面的帮助将不胜感激。

很抱歉没有给出任何示例链接看起来像这样

/813rents-Inc_Tampa_FL__148254837
/A-Amp-M-Realty_Riverview_FL_92361_037984837
/A-Altieri_Tampa_FL_1257391_877954837

Answer 1

您可以从CrawlSpider继承并使用allow中的SgmlLinkExtractor选项，该选项接受正则表达式：

rules = (
  Rule(SgmlLinkExtractor(allow=(r'_FL_'), follow=True),
  Rule(SgmlLinkExtractor(allow=(r'...'), callback='parse_item').
)

def parse_item(self, response):
  ...

Scrapy跟随与正则表达式匹配的链接

1 个答案: