在Scrapy中使用XPath无法访问HTML元素

时间:2016-06-13 19:04:53

标签: html xml xpath web-scraping scrapy

我是网络抓取的新手,所以我在玩scrapy并试图抓住某个网站。

我正在使用Windows上的scrapy shell,只是尝试为我想要访问的特定元素建立正确的XPath。元素是一个计划,这是HTML:

enter image description here

我正在尝试访问rv-schedule-module及其所有子节点。我能够访问所有节点,直到rv-schedule-module,但超出所有XPath调用返回null。例如:

enter image description here

调用的进程返回数据,直到我想访问rv-schedule-module下面的div。该调用返回null。

我做错了什么?

1 个答案:

答案 0 :(得分:2)

正如我怀疑内容是动态创建的,因为它是由javascript处理的!

检查元素时它会在那里,但是如果你检查页面源它就不会。 Scrapy本身不处理javascript,你需要像scrapy-splashSelenium这样的东西。

有一个非常好的帖子,所有强大的Alex解释如何使用它 - https://stackoverflow.com/a/30378765/2781701