我正在尝试索引文件并将这些文件保存在HDFS上。
我正在使用Solr 4.10.4和Hadoop 2.6.0。
我用于集成HDFS和Solr的命令是;
java -Dsolr.directoryFactory=HdfsDirectoryFactory -Dsolr.lock.type=hdfs -Dsolr.data.dir=hdfs://<hostname>:<port>/Solr -Dsolr.updatelog=hdfs://<hostname>:<port>/Solr-logs -jar start.jar
当我尝试使用
发送一些文件时java -jar post.jar <file-path>
命令,Solr发出警告,不发送给hdfs。它只接受具有特定字段的 xml 格式。
如何使用Solr发送任何类型的文件以索引到HDFS并使用Solr搜索这些文件。
注意:我是Solr和Hadoop的初学者。
答案 0 :(得分:0)
如果要索引其他文件格式,您可以指定文档类型,如下所示
java -Dtype=text/csv -jar post.jar *.csv
默认情况下,下面的命令会处理Apache Tika可以处理的所有可能的文件类型
java -Dauto -jar post.jar *.*