http://www.bbc.com/news/business-41097280
网站是否需要正则表达式。
到目前为止,我正在使用以下内容,其中
chown: invalid group: 'nobody:nobody'
这是此代码段的一部分,与Scrapy一起使用
chown nobody:nogroup <dirname>
获取用于提取具有相同格式的多个页面的URL的正确方法是什么?
结果应收集具有以下格式的网址:
bbc.com/news/business - ########
答案 0 :(得分:0)
你可以试试这个:
pattern = "bbc\.com/news/business-\d+"
rules = (Rule(LinkExtractor(allow=[pattern]), callback='parse_item', follow=True),)