标签: python scrapy
我想使用SgmlLinkExtractor通过scrapy抓取前20页。接下来20页的正则表达式是什么时候:
start_url为url.com/montlab?cPath=17,而下一页地址为url.com/montlab?cPath=17&page_num=2,依此类推。
url.com/montlab?cPath=17
url.com/montlab?cPath=17&page_num=2
谢谢!
答案 0 :(得分:1)
试试这个:
SgmlLinkExtractor(allow=(r'page_num=(1[0-9]|[1-9])',)