接下来的20页的SgmlLinkExtractor正则表达式

时间:2014-03-13 22:25:30

标签: python scrapy

我想使用SgmlLinkExtractor通过scrapy抓取前20页。接下来20页的正则表达式是什么时候:

start_url为url.com/montlab?cPath=17,而下一页地址为url.com/montlab?cPath=17&page_num=2,依此类推。

谢谢!

1 个答案:

答案 0 :(得分:1)

试试这个:

SgmlLinkExtractor(allow=(r'page_num=(1[0-9]|[1-9])',)