Question

我想从格式为http://www.vesselfinder.com/vessels?page=i的网页抓取数据，其中i从0到某个整数。

以下正则表达式是否适用于此模式：

start_urls = [
        "http://www.vesselfinder.com/vessels"
    ]

rules = (
    Rule(LinkExtractor(allow=r"com/vessels\?page=[1-100]"),
         callback='parse_item', follow=True),
)

Answer 1

对于1-100范围，您可以使用

r"com/vessels\?page=(?:[1-9][0-9]?|100)\b"

请参阅demo

如果您需要任何号码，请使用\d+：

r"com/vessels\?page=\d+"

请参阅demo 2

Scrapy规则的正则表达式

1 个答案: