Python lxml Cleaner模块没有按预期工作?

时间:2017-04-27 10:04:34

标签: javascript python regex web-scraping lxml

在我的webscrapper中,一些内容带有广告和一些java脚本函数。如下所示;

(function(){var infAds = document.createElement('script'); infAds.async = true; infAds.type ='text / javascript'; var useSSL ='https:'== document。 location.protocol; infAds.src =(useSSL?'https:':'http:')+'// d.infeed.id/widget-50716010/loader/all/'; var node = document.getElementById('cont -50716010-all'); node.parentNode.insertBefore(infAds,node);})();

我使用lxml.html.clean.Cleaner从内容中删除脚本和样式。但并非所有这一切都取消了我的预期。我试着像下面那样;

from lxml.html.clean import Cleaner
cleaner = Cleaner()
cleaner.javascript = True
cleaner.scripts = True
content = "Page content"
clean_content = cleaner.clean_html(content)
print(clean_content)

但如果我使用      clean_content = lxml.html.toString(cleaner.clean_html(content)) __ 我收到以下类型的错误; __TypeError:类型'str'无法序列化。

使用正则表达式我也尝试过,它也没有解决。任何建议或帮助都会非常明显!

提前致谢。

0 个答案:

没有答案