Scrapy:如何从网页中仅提取html标签

时间:2016-07-17 12:22:39

标签: html tree tags scrapy

我想从网页中仅提取html标签及其文本。

但是有条件。

meta,脚本标签应该被排除在外。无论如何,页面上可见的标签及其父标签必须被保留其树形结构。

谢谢。

1 个答案:

答案 0 :(得分:0)

您最有可能使用简单的xpath

items = response.xpath("//*[not(self::script)][not(self::meta)]")
for item in items:
    tag_name = item.xpath("name()").extract_first()
    tag_text = item.xpath("text()").extract_first()
    print(tag_name)
    print(tag_text)

这将提取所有标签及其文本。