网站的正则表达式

时间:2017-10-03 21:42:52

标签: python regex spyder

http://www.bbc.com/news/business-41097280

网站是否需要正则表达式。

到目前为止,我正在使用以下内容,其中

chown: invalid group: 'nobody:nobody'

这是此代码段的一部分,与Scrapy一起使用

chown nobody:nogroup <dirname>

获取用于提取具有相同格式的多个页面的URL的正确方法是什么?

结果应收集具有以下格式的网址:

bbc.com/news/business - ########

1 个答案:

答案 0 :(得分:0)

你可以试试这个:

pattern = "bbc\.com/news/business-\d+"
rules = (Rule(LinkExtractor(allow=[pattern]), callback='parse_item', follow=True),)