我有哪些正确的工具可用于索引和处理大数据?

时间:2015-04-30 16:59:01

标签: hadoop indexing mapreduce

我试图索引和存储大数据,我对使用什么工具感到有些困惑。首先我要说的是我在这里是一个新手,并且只有这个主题的理论知识。我想:

1)使用Hadoop(绝对)

2)使用三台不同的PC从平面文件中提取日志数据

3)将数据转换为结构化形式并加载到HDFS中以进行索引和mapreduce。

我的问题是:

a)在尝试索引三个字段时,是否可以map-index-map-index-map-index-reduce?如果没有,索引是如何完成的?如果可能的话,按顺序解释(例如index-map-reduce)

b)从提取到存储使用的正确工具是什么?

c)Hadoop可以用于简单搜索,还是必须使用lucene / solr等其他工具?

d)在进行MapReduce阶段之前,必须将数据转换为结构化形式,例如使用PDI吗?

2 个答案:

答案 0 :(得分:0)

好吧,如果你想索引一些存储在hadoop中的数据,那么Cloudera Search就是你的完美用例。链接:http://www.cloudera.com/content/cloudera/en/documentation/cloudera-search/v1-latest/Cloudera-Search-User-Guide/csug_introducing.html

我目前在Goibibo.com上使用它来索引日志数据。您可以使用它来实时索引数据以及地图缩减模式。在内部,它使用Solr进行索引并完全适合您的使用案例。您还可以通过Hue公开索引的集合。

答案 1 :(得分:0)

我建议使用弹性搜索或solar来索引大数据。