我想抓取http://www.spyfu.com/overview/url?query=http%3A%2F%2Fwww.veldemangroup.com%2Fen在“有机关键字”下找到文本元素,因此第一个是“仓库结构”。
使用scrapy和命令行工具在python中工作。尝试:
response.xpath("//a[@data-reactid='.0.0.0.0.0.1.0.1.0']")
只返回“[]” - 为什么这样,我如何获得正确的(“仓库结构”)文本?
答案 0 :(得分:0)
您提及的网站只有在您输入http://www.veldemangroup.com/en
后才会动态生成。您可以通过键入scrapy shell http://www.spyfu.com/overview/url?query=http%3A%2F%2Fwww.veldemangroup.com%2Fen
然后response.body
来检查是否有大量的javascript和您尝试查找的选择器(或其他整体也不存在),因此Scrapy无法单独找到它。< / p>
请尝试使用Selenium,这不是简单的请求如何scrapy这样做,但是例如Firefox webdriver可以像浏览器看到的那样读取网站。