Question

Scrapy。如何使用lxml帮助从解析的HTML中的标签中删除样式属性（类或id属性）？像lxml.html.clean.Cleaner之类的东西：

for tag in html.xpath('//*[@class]'):
    tag.attrib.pop('class')

Answer 1

您必须在蜘蛛文件中导入另一个内置的python类

import lxml.html.clean as clean
safe_attrs = set(['src', 'alt', 'href', 'title', 'width', 'height'])
kill_tags = ['object', 'iframe']
cleaner = clean.Cleaner(safe_attrs_only=True, safe_attrs=safe_attrs, kill_tags=kill_tags)
html_string = "some html string with iframes, objects…"

然后像这样使用它

cleaned_html = cleaner.clean_html(html_string)

您可以自定义safe_attrs和kill_tags到要删除的属性和标签。

Scrapy。如何从解析的HTML中的标记中删除样式属性（类或id属性）

1 个答案: