我正在尝试在solr 5.1中加载和索引hdfs数据。我将数据存储在hive表中并使用DIH导入和索引。我按照链接Solr DIH中提供的步骤进行操作。我无法看到任何关于DIH的材料,因此想要检查是否有人为此工作过。也在寻找上述场景的一些建议。
答案 0 :(得分:1)
我能够让它运转起来。 它的工作原理非常有趣。
我们首先获得了hive2 jar,并通过java来检查连接。 然后我们意识到要使用的罐子是:
如果您正在使用SOLR Cloud,那么这些jar将被传输到安装了SOLR的VM,然后在solrconfig.xml中引用,如下所示:
< lib dir =“/ users / path_to_folder_with_jar”regex =“。*。jar”/>
然后这是最重要的部分:你的hive连接字符串:
< dataConfig> < dataSource name =“ABC”driver =“org.apache.hive.jdbc.HiveDriver”url =“jdbc:hive2://....connectionString”user =“username”password =“password”/>
< document name =“collection_name”>
< entity name =“collection_lookup”query =“select unique_key as table from table_name”>
< /实体GT;
< /文件>
< / dataConfig>
server / scripts / cloud-scripts / zkcli.sh -zkhost host1:2181,host2:2181 -cmd upconfig -confname configName -confdir server / solr / configsets / folder /
转到http://host:8983/solr/#/collection_name/dataimport//dataimport 然后检查调试并首先检查10或20条记录。
您将看到数据流动。 CH !! 如果你想进一步讨论我可以提供帮助,但我认为应该这样做。它对我有用。
特别感谢Srini Samudrala与我合作。