如何在Apache Solr上索引PDF文档

时间:2015-10-18 09:37:00

标签: java pdf solr document

我是索尔的新人。由于我无法通过查看其他主题来理解任何内容,他们的解释对我来说非常专业,我正在寻找关于将PDF文档索引到Solr的基本解释。

我从一些stackoverflow主题中找到了这个链接,但它不是一个教程。

http://wiki.apache.org/solr/ExtractingRequestHandler

我只想在solr和search&中添加许多pdf文档。下载它们。

我怎么能这样做,我必须在eclipse或任何地方创建一个java项目吗?

1 个答案:

答案 0 :(得分:0)

我看看其中一个教程,例如5分钟内的Solr,这里是[1]链接。

正常情况下,Solr与ElasticSearch一样,允许索引OTB而无需编写任何代码,因此通过简单的配置文件,您应该能够将文件夹指向索引;在某些情况下,CLI工具应该允许您在命令行上指定此类信息。

无论如何,使用Solr最简单的方法就是使用'post.jar':

cd example/exampledocs
java -Dc=techproducts -jar post.jar sd500.xml

添加sd500.xml。如果您有多个文件,可以使用一个简单的bash脚本循环遍历它们并发布到Solr。

希望它有所帮助!

[1] http://www.solrtutorial.com/solr-in-5-minutes.html

[2] https://wiki.apache.org/solr/SolrConfigXml