我想从格式为http://www.vesselfinder.com/vessels?page=i
的网页抓取数据,其中i
从0
到某个整数。
以下正则表达式是否适用于此模式:
start_urls = [
"http://www.vesselfinder.com/vessels"
]
rules = (
Rule(LinkExtractor(allow=r"com/vessels\?page=[1-100]"),
callback='parse_item', follow=True),
)