使用Apache SOLR索引PDF文档时如何获取文件名。
我正在使用以下命令将PDF文件添加到SOLR(Windows 10):
java -Durl=http://localhost:8983/solr/pdf_core_sample/update/extract -Dparams=literal.filename=pdf_sample.pdf -jar post.jar pdf_sample.pdf
使用此命令,我将创建一个新的attr 文件名,在其中手动添加文件名,但是当我有100多个带有长字符串名的文件时,这样做效率不高。
Dparams=literal.filename=pdf_sample.pdf
这是现在的样子:http://prntscr.com/jwuke5
是否有任何SOLR选项,所以我可以通过运行命令
达到相同的结果java -Durl=http://localhost:8983/solr/pdf_core_sample/update/extract -jar post.jar pdf_sample.pdf
或
java -Durl=http://localhost:8983/solr/pdf_core_sample/update/extract -jar post.jar *.pdf
对于多个文件
这是我的请求处理程序:
<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults"/>
</requestHandler>
注意:我创建了下一个命令的核心:
solr create -c pdf_core_sample