Question

def parse(self, response):
    for row in response.css('body table:nth-child(5)'):
        yield {
            'name': row.css('tr td:nth-child(2)').extract()
        }

我正在尝试指定在此选择器中获取文本，但似乎无法使其正常工作。它获得完整的元素没有问题，但我只想要文本。如果我附加了css selector :: text，它只返回空字符串。

结果是
[ {“name”：[“\ u00a0 \ u00a0”，“ John Doe ”等等} ]

Answer 1

如果使用选择器el::text，它将仅提取<el>内的文本节点，而表格单元格内的文本可以（并且很可能是）包含一些嵌套标记，如{ {1}}，span等。要提取p的所有嵌套文本节点，您可以使用<el>选择器。

Python Scrapy从表列中选择文本

1 个答案: