Question

我想从网页中仅提取html标签及其文本。

但是有条件。

meta，脚本标签应该被排除在外。无论如何，页面上可见的标签及其父标签必须被保留其树形结构。

谢谢。

Answer 1

您最有可能使用简单的xpath：

items = response.xpath("//*[not(self::script)][not(self::meta)]")
for item in items:
    tag_name = item.xpath("name()").extract_first()
    tag_text = item.xpath("text()").extract_first()
    print(tag_name)
    print(tag_text)

这将提取所有标签及其文本。

Scrapy：如何从网页中仅提取html标签

1 个答案: