Question

使用Apache SOLR索引PDF文档时如何获取文件名。

我正在使用以下命令将PDF文件添加到SOLR（Windows 10）：

java -Durl=http://localhost:8983/solr/pdf_core_sample/update/extract -Dparams=literal.filename=pdf_sample.pdf -jar post.jar pdf_sample.pdf

使用此命令，我将创建一个新的attr 文件名，在其中手动添加文件名，但是当我有100多个带有长字符串名的文件时，这样做效率不高。

Dparams=literal.filename=pdf_sample.pdf

这是现在的样子：http://prntscr.com/jwuke5

是否有任何SOLR选项，所以我可以通过运行命令

达到相同的结果

java -Durl=http://localhost:8983/solr/pdf_core_sample/update/extract -jar post.jar pdf_sample.pdf

或

java -Durl=http://localhost:8983/solr/pdf_core_sample/update/extract -jar post.jar *.pdf

对于多个文件

这是我的请求处理程序：

<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults"/>
  </requestHandler>

注意：我创建了下一个命令的核心：

solr create -c pdf_core_sample

如何在建立PDF索引时获取文件名-Apache SOLR

0 个答案: