Question

我使用scrapy提取数据，它使用（''）来生成字段（typeFacture），我想提取文本并删除（''）以将其插入数据库，我想这样做有助于XPATH

HTML代码：

<td class="tNorm tSmall-xs">
    <b>FACTURE</b>
    <br>
''
    Commission
   ''
</td>

我的代码：

 item['typeFacture']  = [item.strip() for item in sel.xpath('//tbody/tr/td[5]/text()').extract()]

结果：

'typeFacture': ['',
             '',
             'Commission',
             '',
             '',
             'Commission',
             '',
             '',
             'Commission',
             '',
             '',
             'Commission',
             '',
             '',
             'Abonnement']}

Answer 1

我找到了解决方案，但没有使用XPATH。在将其插入数据库之前，我在简单的python代码中使用了它

item['typeFacture'] = list(filter(None, item['typeFacture']))

使用xpath / scrapy从python列表中删除空字符

1 个答案: