我正在开发一个项目,使用Apache Lucene在Twitter数据上实现大规模索引以进行搜索优化。 Lucene提供反向索引来过滤掉符合指定选择标准的块。
要实现这个项目,我应该怎么做 - 我应该安装Cloudera虚拟机并继续吗?或者我应该在Ubuntu平台上从Apache部署Hadoop吗?
我之所以这样问是因为我无法确认Cloudera是否已经使用Lucene来优化搜索。
请告知。
答案 0 :(得分:1)
Cloudera为您提供了用于自动安装和集群管理的debian软件包和软件。而已。在Hadoop堆栈中没有关于搜索(和它的优化)的任何内容。所以你可以为你的项目选择香草或cloudera。
对于搜索,您可以使用Elasticsearch。它有integration with hadoop并在内部使用Lucene