我想使用Apache Solr导入或索引存储在HDFS上的Parquet文件中的Hive表。据我所知,第一步是将数据导入或索引到solr
,但我对此知之甚少。
这是我的问题:
环境:solr 4.10 + CDH5.11
请帮忙。
答案 0 :(得分:0)
尝试以下方法:-
1。)在配置单元中创建了一个基表
hive>创建以','结尾的表solrinput3(用户名字符串)行格式分隔字段;
2。)如下将样本数据加载到表“ solrinput3”中:
hive>插入solrinput3值('sanvi');
3。)添加JAR /opt/lucidworks-hdpsearch/hive/solr-hive-serde-2.2.5.jar;
4。)现在,我创建了一个solr-hive集成表,如下所示:
创建外部表dbname.solrtest(标题STRING)
由“ com.lucidworks.hadoop.hive.LWStorageHandler”存储
LOCATION'/ lob / test / hive_test'
TBLPROPERTIES('solr.server.url'='http://XXXX.XXX.XXX:8983/solr',
'solr.collection'='myproj_collection1',
'solr.query'=':');
5。)插入覆盖表solrtest select * from solrinput3;