Question

因为我正在使用scrapy来刮擦包含桌子的网站。我正在使用CSS选择器来获取类attr的元素。示例代码如下。

$ journalctl -u kubelet

我使用选择器

<span class="attr">Tamil Nadu - Greenshore Energy</span>
<span class="attr"></span>
<span class="attr">India</span>

获取跨度中的所有文本和空白。但上面的选择器只返回列表下方。留空空间。

[u＆＃39;泰米尔纳德邦 - Greenshore Energy＆＃39;，u＆＃39; India＆＃39;]

那么我应该使用哪个选择器来获取所有跨度，无论它是否包含文本。

Answer 1

您可以执行以下操作：

>>> [tag.css('::text').extract_first(default='') for tag in response.css('.attr')]
['Tamil Nadu - Greenshore Energy', '', 'India']