如何刮取HTTPS javascript网页

时间:2011-04-06 05:41:47

标签: java javascript python https web-scraping

我正试图通过在线目录监控日常价格。 该站点使用HTTPS并使用javascript生成目录页面。我如何与网站交互并使其生成我需要的页面?

我已经在其他可以轻松访问HTML的网站上完成了这项工作,生成后解析HTML没有问题。

我只懂Python和Java。

提前致谢。

3 个答案:

答案 0 :(得分:10)

查看HTMLUnit - 一个可以完全由您的代码控制的无头Java浏览器。这里可以看到一个简单的例子:http://htmlunit.sourceforge.net/gettingStarted.html

(强制警告:通过屏幕抓取网站,您可能会破坏其ToS,并可能会自行开展诉讼;检查您是否可以在开始之前执行此操作)

答案 1 :(得分:1)

如果他们创建了一个与他们的JavaScript接口的Web API,您可能可以直接删除它,而不是尝试使用HTML路由。

如果他们对其进行了模糊处理或由于某些其他原因而无法使用该选项,那么您基本上需要一个Web浏览器来评估JavaScript,然后废弃浏览器的DOM。也许写一个浏览器插件?

答案 2 :(得分:1)

我使用webkit通过它的python绑定来抓取javascript内容。 See here for example