我想从网页中仅提取html标签及其文本。
但是有条件。
meta,脚本标签应该被排除在外。无论如何,页面上可见的标签及其父标签必须被保留其树形结构。
谢谢。
答案 0 :(得分:0)
您最有可能使用简单的xpath
:
items = response.xpath("//*[not(self::script)][not(self::meta)]")
for item in items:
tag_name = item.xpath("name()").extract_first()
tag_text = item.xpath("text()").extract_first()
print(tag_name)
print(tag_text)
这将提取所有标签及其文本。