用于抓取的无头Java HTTP客户端?

时间:2011-08-02 10:05:38

标签: java javascript web-testing web-crawler

我正在寻找一种用Java编写的抓取工具来检测我们网站中的无效网址。

难点在于,大部分网址都是使用javaScript,CSS3和Ajax完成的。所以只是获取网站网址的内容是行不通的。

理想的是一个无头工具,能够执行javaScript,CSS样式和AJAX调用,并吐出它在这样做时访问的各种URL。

我确实知道这是一个很高的命令,但也许它存在于某个地方?

2 个答案:

答案 0 :(得分:7)

我建议在http://htmlunit.sourceforge.net/上使用,这是针对这些事情的。

答案 1 :(得分:0)