我在文档回顾中使用solr搜索引擎来实现我的项目目的。我的数据集采用.txt文件格式。但是solr只为json,xml,pdf和其他一些文件格式提供了选项。文本文件没有选项 我是否需要在solr中对.txt文件作为数据集进行一些修改?
答案 0 :(得分:0)
您需要做的就是索引您的txt文件。
有关更多信息和具体示例,请查看此处 - http://www.slideshare.net/LucidImagination/indexing-text-and-html-files-with-solr-4063407
答案 1 :(得分:0)
很可能你会在.txt文件中使用空格分隔文件。因此,要索引.txt文件,你可以编写python脚本来将文件流式化为solr并执行提交。
答案 2 :(得分:0)
除了txt文件,Solr还可以索引其他几种文档格式。有关详细信息,请查看Apache Tika。
答案 3 :(得分:0)
您可以使用CSV请求处理程序来处理此问题。 https://wiki.apache.org/solr/UpdateCSV 在这里,您可以配置分隔符和转义字符。例如:如果你有一个" |"分隔文件,您可以指定"& separator = |"
以下是索引标签限制文本文件:
curl' http://localhost:8983/solr/update/csv?commit=true&separator=%09&escape= \& stream.file = / tmp / result.txt'
答案 4 :(得分:0)
我在快速入门指南https://lucene.apache.org/solr/5_3_1/quickstart.html
中找到了一个非常有用的内容java -classpath /solr-5.0.0/dist/solr-core-5.0.0.jar -Dauto=yes
-Dc=gettingstarted -Ddata=files -Drecursive=yes org.apache.solr.util.SimplePostTool docs/
对我来说特别有用的部分是-Dauto=yes
。启用此选项后,Solr可以处理多种类型的文件(不要问我原因)
Entering auto mode. File endings considered are xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
我所知道的是我打开了该选项,现在我的实例将接受pdf,xml和txt文件。