java网络爬虫

时间:2011-03-01 14:05:04

标签: java

嗨,任何人都可以推荐一个简单的java网页抓取工具抓取网站并返回网站中的链接列表?不,我不需要解析器。感谢您的关注。

1 个答案:

答案 0 :(得分:2)

网络抓取工具(几乎按定义)从不“简单”。

然而,两个名字都浮现在脑海中(尽管两者都有学习曲线):

两者都是开源的,可以达到你想要的效果,虽然简单地列出网站中的链接并不是为此而构建的(Nutch旨在构建搜索索引而Heritrix旨在存档网站)。您需要执行一些自定义配置才能完成任务。

HTTrack是一个更简单的工具,但没有用Java实现。