使用Apache Solr导入或索引Hive / HDFS数据

时间:2018-05-02 06:32:25

标签: hadoop solr lucene

我想使用Apache Solr导入或索引存储在HDFS上的Parquet文件中的Hive表。据我所知,第一步是将数据导入或索引到solr,但我对此知之甚少。

这是我的问题:

  1. 选择哪些方式:Data Import Handler (DIH),HTTP?
  2. Solr 4.9支持索引HDFS,哪个不同?
  3. 环境:solr 4.10 + CDH5.11

    请帮忙。

1 个答案:

答案 0 :(得分:0)

尝试以下方法:-

1。)在配置单元中创建了一个基表

hive>创建以','结尾的表solrinput3(用户名字符串)行格式分隔字段;

2。)如下将样本数据加载到表“ solrinput3”中:

hive>插入solrinput3值('sanvi');

3。)添加JAR /opt/lucidworks-hdpsearch/hive/solr-hive-serde-2.2.5.jar;

4。)现在,我创建了一个solr-hive集成表,如下所示:

创建外部表dbname.solrtest(标题STRING)

由“ com.lucidworks.hadoop.hive.LWStorageHandler”存储

LOCATION'/ lob / test / hive_test'

TBLPROPERTIES('solr.server.url'='http://XXXX.XXX.XXX:8983/solr',

'solr.collection'='myproj_collection1',

'solr.query'='');

5。)插入覆盖表solrtest select * from solrinput3;