Question

网站是否需要正则表达式。

到目前为止，我正在使用以下内容，其中

chown: invalid group: 'nobody:nobody'

这是此代码段的一部分，与Scrapy一起使用

chown nobody:nogroup <dirname>

获取用于提取具有相同格式的多个页面的URL的正确方法是什么？

结果应收集具有以下格式的网址：

bbc.com/news/business - ########

Answer 1

你可以试试这个：

pattern = "bbc\.com/news/business-\d+"
rules = (Rule(LinkExtractor(allow=[pattern]), callback='parse_item', follow=True),)