Scrapy:使用document.write抓取目标项目填充的网站

时间:2014-03-31 09:14:47

标签: python web-scraping scrapy

我正在尝试废弃使用document.write方法填充目标商品的网站。如何在 Scrapy 中获得完整的浏览器html呈现的网站版本?

1 个答案:

答案 0 :(得分:2)

你不能这样做,因为scrapy不会执行JavaScript代码。

你能做什么:

  • 依靠像Selenium这样的无头浏览器,它将执行JavaScript。然后,像以前一样使用XPath(或简单的DOM访问)在执行页面后查询网页
  • 了解内容的来源,直接加载和解析来源。 Chrome开发工具/ Firebug可能会为您提供帮助,请查看显示已获取数据的“网络”面板。

    特别是寻找JSON,有时也寻找XML。