将Parquet格式的Hive表数据索引到Cloudera Search / Solr

时间:2017-10-12 17:30:20

标签: hadoop solr hive parquet cloudera-cdh

在启用了Kerberos的Cloudera集群中,我想将数据从具有Parquet数据格式的Hive表索引到Cloudera Search(Solr)。实现这一目标的最佳方法是什么?数据可能约为10-20密耳。

到目前为止我找到了两种方法 - 1.使用Map减少索引的索引工具和变形线(如果我在这里得到一些帮助,那将会很棒) 2.使用自定义配置单元serde https://github.com/lucidworks/hive-solr,不确定这是否适用于更高的配置单元版本。

是否有其他机制可以为此数据编制索引。

1 个答案:

答案 0 :(得分:0)

1.)方法似乎对我有好处并且根据Cloudera Search Guide - MapReduce Indexing

  

是否有其他机制可以为此数据编制索引。

不确定是否可以使用ORC's file native-indexes