Scrapy。如何使用lxml帮助从解析的HTML中的标签中删除样式属性(类或id属性)?像lxml.html.clean.Cleaner
之类的东西:
for tag in html.xpath('//*[@class]'):
tag.attrib.pop('class')
答案 0 :(得分:0)
您必须在蜘蛛文件中导入另一个内置的python类
import lxml.html.clean as clean
safe_attrs = set(['src', 'alt', 'href', 'title', 'width', 'height'])
kill_tags = ['object', 'iframe']
cleaner = clean.Cleaner(safe_attrs_only=True, safe_attrs=safe_attrs, kill_tags=kill_tags)
html_string = "some html string with iframes, objects…"
然后像这样使用它
cleaned_html = cleaner.clean_html(html_string)
您可以自定义safe_attrs
和kill_tags
到要删除的属性和标签。