我需要在scrapy中对SgmlLinkExtractor进行一些启发。
对于链接: example.com/YYYY/MM/DD/title 我会写:
Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]
链接: example.com/news/economic/title 我应该写一下:
r'\news\category\w+'
或r'\news\w+/\w+'
? (类别更改但网址始终包含新闻)
对于链接: example.com/article/title 我应该写一下:
r'\article\w+'
? (网址始终包含文章)
答案 0 :(得分:0)
如果您没有提供完整的示例字符串以及您想要匹配(以及您不想匹配的内容)与正则表达式,则无法回答“我应该”的问题。
我想,你的正则表达式不起作用,因为你使用的是\
而不是/
。
我建议您转到regex101并测试您的网址是否与正则表达式匹配。请参见以下屏幕截图: