用javascript屏幕延迟刮刮网站

时间:2011-02-03 08:05:09

标签: javascript python screen-scraping web-scraping scraper

我正在尝试抓取一个连续第二次javascript延迟的网站。

我目前正在使用python进行抓取。每当我'获得'页面时,javascript延迟还没有完成,并且还没有完全加载新的dom。

我怎么会刮掉这样一个pge?

2 个答案:

答案 0 :(得分:1)

一种可靠的方法是通过网络浏览器或网络浏览器控件来删除它,例如: G。使用i-Macros scraping commands。它也适用于Python/Linux

您也可以通过Windows上的webbrowser控件自行编码:http://www.codeproject.com/KB/cs/webbrowser.aspx

答案 1 :(得分:1)

您可以扩展Mozilla以构建可以充分利用Web浏览器功能的Web scraper。在加载所有数据并构建DOM之后,您可以使用XSLT从DOM中提取所需的数据。如果DOM在初始加载后动态更改,您可以采取一些方法来等待更改。有关详细信息,请访问http://www.gooseeker.com。 GooSeeker为所有人免费发布一个类似的工具。大多数代码都是javascript和可读的,你可以从中找到它的运行方式。