应用错误收集

Scrapy：使用document.write抓取目标项目填充的网站

时间：2014-03-31 09:14:47

标签： python web-scraping scrapy

我正在尝试废弃使用document.write方法填充目标商品的网站。如何在 Scrapy 中获得完整的浏览器html呈现的网站版本？

1 个答案:

答案 0 :(得分：2)

你不能这样做，因为scrapy不会执行JavaScript代码。

你能做什么：

依靠像Selenium这样的无头浏览器，它将执行JavaScript。然后，像以前一样使用XPath（或简单的DOM访问）在执行页面后查询网页。

了解内容的来源，直接加载和解析来源。 Chrome开发工具/ Firebug可能会为您提供帮助，请查看显示已获取数据的“网络”面板。

特别是寻找JSON，有时也寻找XML。

相关问题

使用scrapy解析同一div下的网站

Scrapy：使用document.write抓取目标项目填充的网站

使用python＆amp; scraping网站scrapy

使用scrapy从网站返回价值

如何更改保存图像的目录，scrapy

使用scrapy抓取基于ASP.NET的网站的内容

使用python的scrapy代码为一个网站而不是另一个网站提供结果

使用scrapy

抓取网站时数据丢失

问题用scrapy登录到网站

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？