如何删除scrapy输出中的逗号

时间:2016-02-09 14:42:01

标签: python scrapy

我正在研究一只scrapy蜘蛛。这是我的代码:

item = MyItem()
item['Description'] = response.xpath('//*[@id="textepresentation"]//p').extract()
item['Description'] = [ '\,'.join(field.split(',')) for field in item.get('Description', [])]

我得到了这个结果:

 [ u'<p>Some text.</p>',
             u'<p>\xa0</p>',
             u'<p>\xa0</p>',
             u'<p>\xa0</p>',
  u'<p>Some other text.</p>',
              u'<p>\xa0</p>',
              u'<p>\xa0</p>'],

我想删除空的<p> </p>代码:

item['Description'] = [ ''.join(field.replace('<p>'u'\xa0''</p>', '').encode('utf-8')) for field in item.get('Description', [])]

我得到了这个结果:

['<p>Some text.</p>',
             '',
             '',
             '',
 '<p>Some other text.</p>',
             '',
             ''],

现在,如何删除结果中的逗号以获取此内容?

['<p>Some text.</p>'
 '<p>Some other text</p>']

1 个答案:

答案 0 :(得分:2)

您需要获取=IFERROR(MIN(0,SMALL(A:A,ROW()-1)),"") 并致电text()

extract_first()