如何使用Solr将文件发送到HDFS

时间:2015-07-07 06:56:51

标签: hadoop indexing solr hdfs

我正在尝试索引文件并将这些文件保存在HDFS上。

我正在使用Solr 4.10.4和Hadoop 2.6.0。

我用于集成HDFS和Solr的命令是;

java -Dsolr.directoryFactory=HdfsDirectoryFactory -Dsolr.lock.type=hdfs -Dsolr.data.dir=hdfs://<hostname>:<port>/Solr -Dsolr.updatelog=hdfs://<hostname>:<port>/Solr-logs -jar start.jar

当我尝试使用

发送一些文件时
java -jar post.jar <file-path>

命令,Solr发出警告,不发送给hdfs。它只接受具有特定字段的 xml 格式。

如何使用Solr发送任何类型的文件以索引到HDFS并使用Solr搜索这些文件。

注意:我是Solr和Hadoop的初学者。

1 个答案:

答案 0 :(得分:0)

如果要索引其他文件格式,您可以指定文档类型,如下所示

java -Dtype=text/csv -jar post.jar *.csv

默认情况下,下面的命令会处理Apache Tika可以处理的所有可能的文件类型

java -Dauto -jar post.jar *.*