Question

在特定URL上使用scrapy shell，我试图确定如何从页面源代码中的此脚本中提取作者值或贡献者值？我尝试过

response.xpath('//script').re(r'author":"([0-9.]+)"')

这是网站源代码中的脚本

<script charSet="UTF-8">...
"author":"3810161","contributor":{"id":"3810161"}},
</script>

Answer 1

您是否尝试过从Scrapy本身打印所有<script>内容？我猜您将不会看到与在导航器检查器中看到的内容相同的内容，因为这些节点似乎是用Javascript呈现的，而Scrapy无法处理Javascript。

如果您只想从这些搜索结果中提取一些内容，则可以只使用api（您发布的搜索参数相同，但会得到JSON响应，确实更易于解析...）< / p>