我想选择以上其中一项来构建特定网站的抓取框架。这不是互联网范围内的爬行。我没有构建搜索索引,而是有兴趣从网站上抓取特定页面。
有人可以详细说明上述的优点和缺点吗? 谢谢 Nayn
答案 0 :(得分:-1)
您的主要任务是从网站上抓取特定页面。
Nutch :基于Lucene Java构建的开源网络搜索软件
Heritrix :是Internet Archive的开源,可扩展,网络规模,档案质量的网络抓取工具
所以我觉得Heritrix比你的项目要好得多。
学习框架/图书馆是一项有价值的工作。但这需要一些时间。既然你的任务不是很复杂,那么在Java中从头开始编写一个简单的爬虫就不那么痛苦了