scrapy中的SgmlLinkExtractor

时间:2015-06-04 23:05:53

标签: web-crawler scrapy rules extractor

我需要在scrapy中对SgmlLinkExtractor进行一些启发。

对于链接: example.com/YYYY/MM/DD/title 我会写:

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]

链接: example.com/news/economic/title 我应该写一下:

r'\news\category\w+'r'\news\w+/\w+'? (类别更改但网址始终包含新闻

对于链接: example.com/article/title 我应该写一下:

r'\article\w+'? (网址始终包含文章

1 个答案:

答案 0 :(得分:0)

如果您没有提供完整的示例字符串以及您想要匹配(以及您不想匹配的内容)与正则表达式,则无法回答“我应该”的问题。

我想,你的正则表达式不起作用,因为你使用的是\而不是/

我建议您转到regex101并测试您的网址是否与正则表达式匹配。请参见以下屏幕截图:

enter image description here