我有一个Java爬网程序应用程序需要访问网页中的所有链接。问题是在某些页面中,链接是由javascript函数生成的。类似的东西:
<a href="someJavascriptFunction()"> Lorem Ipsum </a>
我知道HtmlUnit。但在我的测试中,这对我的目的来说太慢了。本地页面(在http://localhost/test.html中)花了将近2秒的时间来获取。其他远程网页花了更多的时间。
我希望以最简单/最快捷的方式查找网页中的所有链接,甚至是Java中的javascript链接。 (欢迎使用C / C ++解决方案)。 我也知道Nutch(抓取工具)有一个来自Javascript的链接提取器,但我不确定该代码是否可以从Nutch“提取”出来用于另一个上下文。
答案 0 :(得分:0)
似乎可以从Nutch中提取有用的代码:
看看main方法如何用作独立的JS链接提取器。