如何将javascript网页转换为纯HTML?

时间:2013-10-21 03:16:25

标签: javascript html

我想用javascript将一些网页转换成普通的html,我发现有几种方式(请告诉我,如果我错了):

  1. 使用Jython,例如:http://blog.databigbang.com/web-scraping-ajax-and-javascript-sites/
  2. 将Java与htmlunit一起使用
  3. 使用代理,例如:http://grep.codeconsult.ch/2007/02/24/crowbar-scrape-javascript-generated-pages-via-gecko-and-rest/
  4. 将python与qt或PyV8一起使用
  5. 因为我想制作一个小工具来满足我的要求,我觉得安装V8和qt有点复杂,虽然python是我的首选。

    所以我尝试使用gecko制作代理,但似乎需要一个我在远程Linux服务器上买不起的DISPLAY。

    现在我正在尝试使用jython,但似乎没有简单的方法可以将整个页面转换为普通的html。

    实际上,我想问一下是否有办法将包含javascript的网页转换为普通html,就像浏览器一样。 node.js可以做这个工作吗?

1 个答案:

答案 0 :(得分:1)

我最近在PhantomJS之上构建了一个服务器来实现这一目标。我强烈推荐这条路线。

http://phantomjs.org/

基本上,您编写了一个快速脚本,让PhantomJS运行该页面,并配置一个触发器方法,让您知道页面已完成并关闭数据。我的版本使用了内置的HTTP服务器,因此PhantomJS可以轻松地自行提供结果。这需要大约15行代码。 (对不起,不能把它贴在这里......在工作时间写下来。但是,看看他们主页上的例子。它几乎完成了!)