应用错误收集

时间：2016-06-13 19:04:53

标签： html xml xpath web-scraping scrapy

我是网络抓取的新手，所以我在玩scrapy并试图抓住某个网站。

我正在使用Windows上的scrapy shell，只是尝试为我想要访问的特定元素建立正确的XPath。元素是一个计划，这是HTML：

我正在尝试访问rv-schedule-module及其所有子节点。我能够访问所有节点，直到rv-schedule-module，但超出所有XPath调用返回null。例如：

调用的进程返回数据，直到我想访问rv-schedule-module下面的div。该调用返回null。

我做错了什么？

答案 0 :(得分：2)

正如我怀疑内容是动态创建的，因为它是由javascript处理的！

检查元素时它会在那里，但是如果你检查页面源它就不会。 Scrapy本身不处理javascript，你需要像scrapy-splash或Selenium这样的东西。

有一个非常好的帖子，所有强大的Alex解释如何使用它 - https://stackoverflow.com/a/30378765/2781701