用Java镜像网站

时间:2010-10-19 08:53:41

标签: java web wget mirror

我需要从我的Java应用程序镜像一些网站。我一直在寻找一个开源的java库来完成这项工作,但没有找到合适的东西。

有人知道一些java友好的工具来检索整个网站,还是我必须坚持从我的程序执行exec wget?

非常感谢。

2 个答案:

答案 0 :(得分:1)

我发现这种库的最大问题是缺乏对css解析的支持,因此在镜像网站时也可以下载导入的样式表,背景图像等。

wget已经内置了对此的支持(至少在最近的版本中),虽然从java运行这个程序不是一个非常干净的解决方案,但我首先尝试一下,看看它是否符合您的需求。

答案 1 :(得分:0)

我会推荐一个爬虫/蜘蛛。 AspiderSperowider使用Apache HttpClient lib(我最喜欢的httplib)并在链接后浏览网站。由于它们是OSS,您应该能够将其集成到您的软件中。它们目前还没有维护,但是如果你想在java中编写自己的镜像工具,Apache HttpClient lib将是一个很好的起点。