使用Java中的javascript链接获取网页

时间:2010-11-09 14:44:07

标签: java parsing web-crawler html-parsing nutch

我有一个Java爬网程序应用程序需要访问网页中的所有链接。问题是在某些页面中,链接是由javascript函数生成的。类似的东西:

<a href="someJavascriptFunction()"> Lorem Ipsum </a>

我知道HtmlUnit。但在我的测试中,这对我的目的来说太慢了。本地页面(在http://localhost/test.html中)花了将近2秒的时间来获取。其他远程网页花了更多的时间。

我希望以最简单/最快捷的方式查找网页中的所有链接,甚至是Java中的javascript链接。 (欢迎使用C / C ++解决方案)。 我也知道Nutch(抓取工具)有一个来自Javascript的链接提取器,但我不确定该代码是否可以从Nutch“提取”出来用于另一个上下文。

1 个答案:

答案 0 :(得分:0)

似乎可以从Nutch中提取有用的代码:

看看main方法如何用作独立的JS链接提取器。