从hive导入数据时出现Solr DIH错误

时间:2016-03-03 20:25:48

标签: hadoop solr hive dih

我正在尝试在solr 5.1中加载和索引hdfs数据。我将数据存储在hive表中并使用DIH导入和索引。我按照链接Solr DIH中提供的步骤进行操作。我无法看到任何关于DIH的材料,因此想要检查是否有人为此工作过。也在寻找上述场景的一些建议。

1 个答案:

答案 0 :(得分:1)

我能够让它运转起来。 它的工作原理非常有趣。

我们首先获得了hive2 jar,并通过java来检查连接。 然后我们意识到要使用的罐子是:

  1. Hadoop的共2.7.0-MAPR-1703.jar
  2. 蜂房共2.1.1-MAPR-1703-r1.jar
  3. 蜂房-JDBC-2.1.1-MAPR-1703-R1-standalone.jar
  4. 如果您正在使用SOLR Cloud,那么这些jar将被传输到安装了SOLR的VM,然后在solrconfig.xml中引用,如下所示:

    在solrconfig.xml中导入部件

    < lib dir =“/ users / path_to_folder_with_jar”regex =“。*。jar”/>

    然后这是最重要的部分:你的hive连接字符串:

    连接部分

    < dataConfig> < dataSource name =“ABC”driver =“org.apache.hive.jdbc.HiveDriver”url =“jdbc:hive2://....connectionString”user =“username”password =“password”/>

    < document name =“collection_name”>

    < entity name =“collection_lookup”query =“select unique_key as table from table_name”>

    < /实体GT;

    < /文件>

    < / dataConfig>

    通过zookeeper推送配置

    server / scripts / cloud-scripts / zkcli.sh -zkhost host1:2181,host2:2181 -cmd upconfig -confname configName -confdir server / solr / configsets / folder /

    转到http://host:8983/solr/#/collection_name/dataimport//dataimport 然后检查调试并首先检查10或20条记录。

    您将看到数据流动。 CH !! 如果你想进一步讨论我可以提供帮助,但我认为应该这样做。它对我有用。

    特别感谢Srini Samudrala与我合作。