Question

我需要在scrapy中对SgmlLinkExtractor进行一些启发。

对于链接： example.com/YYYY/MM/DD/title 我会写：

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]

链接： example.com/news/economic/title 我应该写一下：

r'\news\category\w+'或r'\news\w+/\w+'？（类别更改但网址始终包含新闻）

对于链接： example.com/article/title 我应该写一下：

r'\article\w+'？（网址始终包含文章）

Answer 1

如果您没有提供完整的示例字符串以及您想要匹配（以及您不想匹配的内容）与正则表达式，则无法回答“我应该”的问题。

我想，你的正则表达式不起作用，因为你使用的是\而不是/。

我建议您转到regex101并测试您的网址是否与正则表达式匹配。请参见以下屏幕截图：

enter image description here