Scrapy。如何从解析的HTML中的标记中删除样式属性(类或id属性)

时间:2015-08-06 14:38:54

标签: python html web-scraping scrapy

Scrapy。如何使用lxml帮助从解析的HTML中的标签中删除样式属性(类或id属性)?像lxml.html.clean.Cleaner之类的东西:

for tag in html.xpath('//*[@class]'):
    tag.attrib.pop('class')

1 个答案:

答案 0 :(得分:0)

您必须在蜘蛛文件中导入另一个内置的python类

import lxml.html.clean as clean
safe_attrs = set(['src', 'alt', 'href', 'title', 'width', 'height'])
kill_tags = ['object', 'iframe']
cleaner = clean.Cleaner(safe_attrs_only=True, safe_attrs=safe_attrs, kill_tags=kill_tags)
html_string = "some html string with iframes, objects…"

然后像这样使用它

cleaned_html = cleaner.clean_html(html_string)

您可以自定义safe_attrskill_tags到要删除的属性和标签。