规范列表项的空间并使用Scrapy提取为数组

时间:2015-11-11 18:07:17

标签: python scrapy scrapy-spider parsel

我正在寻找一种有效的方法来将列表项提取为数组。他们需要剥去任何额外的空间。目前我这样做:

actions = []
actions_list = sel.xpath('//div[label="Actions Taken"]/article/div/ul')
action_items = actions_list.xpath('li')
for a in action_items:
    actions.append(a.xpath('normalize-space(text())')[0].extract())

actions数组存储在我的数据库中。在Scrapy中有更有效的方法吗?

1 个答案:

答案 0 :(得分:1)

以下xpath应该与您正在执行的操作相同:

sel.xpath('normalize-space(//div[label="Actions Taken"]/article/div/ul/li/text()[0])').extract()

但这取决于页面