我想知道哪些版本的Nutch和Elasticsearch能够很好地协同工作以创建垂直搜索应用程序(在AWS上)?
如果我计划从500个站点开始爬行并从那里开始增加,那么最好的版本可以一起使用。
我有Nutch 1.10和ES 1.5在我的本地计算机上一起工作以进行开发和测试,但我知道随着我的数据变得越来越大(爬网的网站越来越多),这是不可行的。
我想使用AWS EMR并将已爬网数据存储在S3上。
答案 0 :(得分:1)
好的,经过多次搜索,阅读和观看一些视频......很明显Nutch 2.x(2.3)是一个不错的选择。它似乎更适合前进,并将与ES合作。
-HTH其他任何面临类似情况的人