Question

我想抓取http://www.spyfu.com/overview/url?query=http%3A%2F%2Fwww.veldemangroup.com%2Fen在“有机关键字”下找到文本元素，因此第一个是“仓库结构”。

使用scrapy和命令行工具在python中工作。尝试：

response.xpath("//a[@data-reactid='.0.0.0.0.0.1.0.1.0']")

只返回“[]” - 为什么这样，我如何获得正确的（“仓库结构”）文本？

Answer 1

您提及的网站只有在您输入http://www.veldemangroup.com/en后才会动态生成。您可以通过键入scrapy shell http://www.spyfu.com/overview/url?query=http%3A%2F%2Fwww.veldemangroup.com%2Fen然后response.body来检查是否有大量的javascript和您尝试查找的选择器（或其他整体也不存在），因此Scrapy无法单独找到它。< / p>

请尝试使用Selenium，这不是简单的请求如何scrapy这样做，但是例如Firefox webdriver可以像浏览器看到的那样读取网站。

数据重新连接元素

1 个答案: