Scrapy提取脚本值

时间:2019-03-05 17:37:52

标签: python regex scrapy

在特定URL上使用scrapy shell,我试图确定如何从页面源代码中的此脚本中提取作者值或贡献者值?我尝试过

response.xpath('//script').re(r'author":"([0-9.]+)"') 

这是网站源代码中的脚本

<script charSet="UTF-8">...
"author":"3810161","contributor":{"id":"3810161"}},
</script>

1 个答案:

答案 0 :(得分:0)

您是否尝试过从Scrapy本身打印所有<script>内容? 我猜您将不会看到与在导航器检查器中看到的内容相同的内容,因为这些节点似乎是用Javascript呈现的,而Scrapy无法处理Javascript。

如果您只想从这些搜索结果中提取一些内容,则可以只使用api(您发布的搜索参数相同,但会得到JSON响应,确实更易于解析...)< / p>