收到网页文字后删除CSS样式代码

时间:2019-01-28 10:22:26

标签: python scrapy

我想获取网页的全文,很不幸,我的抓取器也正在捕获CSS代码,我如何完成下面的代码以删除CSS样式代码:

page = " ".join(response.xpath('//body//descendant-or-self::*[not(self::script)]/text()').extract())

1 个答案:

答案 0 :(得分:1)

尝试

//body//descendant-or-self::*[not(self::script or self::style)]

我已测试并且可以正常工作,但不包括STYLE和SCRIPT标签