我试图索引和存储大数据,我对使用什么工具感到有些困惑。首先我要说的是我在这里是一个新手,并且只有这个主题的理论知识。我想:
1)使用Hadoop(绝对)
2)使用三台不同的PC从平面文件中提取日志数据
3)将数据转换为结构化形式并加载到HDFS中以进行索引和mapreduce。
我的问题是:
a)在尝试索引三个字段时,是否可以map-index-map-index-map-index-reduce?如果没有,索引是如何完成的?如果可能的话,按顺序解释(例如index-map-reduce)
b)从提取到存储使用的正确工具是什么?
c)Hadoop可以用于简单搜索,还是必须使用lucene / solr等其他工具?
d)在进行MapReduce阶段之前,必须将数据转换为结构化形式,例如使用PDI吗?
答案 0 :(得分:0)
好吧,如果你想索引一些存储在hadoop中的数据,那么Cloudera Search就是你的完美用例。链接:http://www.cloudera.com/content/cloudera/en/documentation/cloudera-search/v1-latest/Cloudera-Search-User-Guide/csug_introducing.html
我目前在Goibibo.com上使用它来索引日志数据。您可以使用它来实时索引数据以及地图缩减模式。在内部,它使用Solr进行索引并完全适合您的使用案例。您还可以通过Hue公开索引的集合。
答案 1 :(得分:0)
我建议使用弹性搜索或solar来索引大数据。