我想使用正则表达式从项目中提取一些字段,但没有匹配项。
这是管道代码:
class AuthoridPipeline(object):
def process_item(self,item,spider):
if item['author_id']:
item['author_id'] = re.search('[1-9][0-9]{4,}',item['author_id'])
else:
return DropItem('抛弃')
需要匹配的是网址中的第一个数字 item(url)演示https://zhaoqiansun.com/13404366/
匹配结果为空