如何在建立PDF索引时获取文件名-Apache SOLR

时间:2018-06-19 18:33:37

标签: apache solr upload

使用Apache SOLR索引PDF文档时如何获取文件名。

我正在使用以下命令将PDF文件添加到SOLR(Windows 10):

java -Durl=http://localhost:8983/solr/pdf_core_sample/update/extract -Dparams=literal.filename=pdf_sample.pdf -jar post.jar pdf_sample.pdf

使用此命令,我将创建一个新的attr 文件名,在其中手动添加文件名,但是当我有100多个带有长字符串名的文件时,这样做效率不高。

Dparams=literal.filename=pdf_sample.pdf

这是现在的样子:http://prntscr.com/jwuke5

是否有任何SOLR选项,所以我可以通过运行命令

达到相同的结果
java -Durl=http://localhost:8983/solr/pdf_core_sample/update/extract -jar post.jar pdf_sample.pdf

java -Durl=http://localhost:8983/solr/pdf_core_sample/update/extract -jar post.jar *.pdf

对于多个文件

这是我的请求处理程序

<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults"/>
  </requestHandler>

注意:我创建了下一个命令的核心:

solr create -c pdf_core_sample

0 个答案:

没有答案