我在Hive中有一堆表,存储为ORC。我想在SolrCloud集合中索引他们的数据。
是否支持在Solr中以ORC格式存储索引数据? 我已经用Google搜索了但没有出来。
答案 0 :(得分:1)
您希望 SolR 从特定的Hive文件格式中读取数据。
您可能会以另一种方式查看问题,即使用 Hive 将数据写入SolR - 从而让Hive处理实际输入文件的复杂性格式(无论是ORC,Parquet,AVRO,还是其他 - 甚至是HBase数据文件)。
在LucidWorks GitHub repo中,您会找到一个标有 hive-solr 的项目。看看。
答案 1 :(得分:0)
我接受了Samson的回答。
无论如何,我对此解决方案并不完全满意。实际上,现在我仍然需要手动创建一个外部表来声明原始表中的所有字段。在操作方面,它与从原始表创建一个新表(存储的广告文本文件),索引新文本文件并最终删除它们没有什么不同(当然,对于非常大的表,这可能是一个问题,这是不是我的情况)。
将ORC作为自描述格式,Solr直接从压缩文件中读取字段名称和数据将非常棒。