在启用了Kerberos的Cloudera集群中,我想将数据从具有Parquet数据格式的Hive表索引到Cloudera Search(Solr)。实现这一目标的最佳方法是什么?数据可能约为10-20密耳。
到目前为止我找到了两种方法 - 1.使用Map减少索引的索引工具和变形线(如果我在这里得到一些帮助,那将会很棒) 2.使用自定义配置单元serde https://github.com/lucidworks/hive-solr,不确定这是否适用于更高的配置单元版本。
是否有其他机制可以为此数据编制索引。
答案 0 :(得分:0)
1.)方法似乎对我有好处并且根据Cloudera Search Guide - MapReduce Indexing。
是否有其他机制可以为此数据编制索引。
不确定是否可以使用ORC's file native-indexes。