html标签外的草率选择器

时间:2018-11-17 00:52:02

标签: xpath scrapy css-selectors

在一种特殊情况下,脚本标记位于html标记之外:

<html>
....
</html>

<script>data</script>

css和xpath选择器都没有找到此脚本标签,我发现的唯一方法是使用response.text,但这以一个巨大的字符串作为响应,我无法使用选择器re()函数对其进行正则表达式操作。 / p>

有没有办法在html标签之外添加CSS或Xpath标签?

我尝试过

response.css('script') 

但仅考虑html标签内的脚本标签

谢谢

1 个答案:

答案 0 :(得分:1)

更正:

css选择器不考虑HTML之外的标记,xpath则考虑。

我使用了一些条件来过滤标签:

response.xpath('//script[contains(., "function SelectItem()")]')