数据重新连接元素

时间:2016-01-30 13:40:54

标签: python xpath scrapy

我想抓取http://www.spyfu.com/overview/url?query=http%3A%2F%2Fwww.veldemangroup.com%2Fen在“有机关键字”下找到文本元素,因此第一个是“仓库结构”。

使用scrapy和命令行工具在python中工作。尝试:

response.xpath("//a[@data-reactid='.0.0.0.0.0.1.0.1.0']")

只返回“[]” - 为什么这样,我如何获得正确的(“仓库结构”)文本?

1 个答案:

答案 0 :(得分:0)

您提及的网站只有在您输入http://www.veldemangroup.com/en后才会动态生成。您可以通过键入scrapy shell http://www.spyfu.com/overview/url?query=http%3A%2F%2Fwww.veldemangroup.com%2Fen然后response.body来检查是否有大量的javascript和您尝试查找的选择器(或其他整体也不存在),因此Scrapy无法单独找到它。< / p>

请尝试使用Selenium,这不是简单的请求如何scrapy这样做,但是例如Firefox webdriver可以像浏览器看到的那样读取网站。