我使用scrapy提取数据,它使用('')来生成字段(typeFacture),我想提取文本并删除('')以将其插入数据库,我想这样做有助于XPATH
HTML代码:
<td class="tNorm tSmall-xs">
<b>FACTURE</b>
<br>
''
Commission
''
</td>
我的代码:
item['typeFacture'] = [item.strip() for item in sel.xpath('//tbody/tr/td[5]/text()').extract()]
结果:
'typeFacture': ['',
'',
'Commission',
'',
'',
'Commission',
'',
'',
'Commission',
'',
'',
'Commission',
'',
'',
'Abonnement']}
答案 0 :(得分:0)
我找到了解决方案,但没有使用XPATH。 在将其插入数据库之前,我在简单的python代码中使用了它
item['typeFacture'] = list(filter(None, item['typeFacture']))