标签: java
嗨,任何人都可以推荐一个简单的java网页抓取工具抓取网站并返回网站中的链接列表?不,我不需要解析器。感谢您的关注。
答案 0 :(得分:2)
网络抓取工具(几乎按定义)从不“简单”。
然而,两个名字都浮现在脑海中(尽管两者都有学习曲线):
两者都是开源的,可以达到你想要的效果,虽然简单地列出网站中的链接并不是为此而构建的(Nutch旨在构建搜索索引而Heritrix旨在存档网站)。您需要执行一些自定义配置才能完成任务。
HTTrack是一个更简单的工具,但没有用Java实现。