应用错误收集

将Parquet格式的Hive表数据索引到Cloudera Search / Solr

时间：2017-10-12 17:30:20

标签： hadoop solr hive parquet cloudera-cdh

在启用了Kerberos的Cloudera集群中，我想将数据从具有Parquet数据格式的Hive表索引到Cloudera Search（Solr）。实现这一目标的最佳方法是什么？数据可能约为10-20密耳。

到目前为止我找到了两种方法 - 1.使用Map减少索引的索引工具和变形线（如果我在这里得到一些帮助，那将会很棒） 2.使用自定义配置单元serde https://github.com/lucidworks/hive-solr，不确定这是否适用于更高的配置单元版本。

是否有其他机制可以为此数据编制索引。

1 个答案:

答案 0 :(得分：0)

1.）方法似乎对我有好处并且根据Cloudera Search Guide - MapReduce Indexing。

是否有其他机制可以为此数据编制索引。

不确定是否可以使用ORC's file native-indexes。