solr - 在SOLR中使用TIKA索引指向pdf的URL

时间：2017-03-13 12:17:40

标签： solr apache-tika

我要求传入的更新请求具有类似＆＃34; link＆＃34;：＆＃34; htp：//example.pdf" （以及其他一些元数据）我必须解析PDF文档并将其编入索引，如＃34; link_value＆＃34;：＆＃34; PDF提取的内容＆＃34;。这在SOLR中是否可以使用tika？

注意：我不能使用数据导入处理程序，因为传入的请求不是来自单一来源，而是通过外部源完成

答案 0 :(得分：1)

所以，如果我理解正确的话：

是的，您可以在Solr中执行此操作，但您需要做一些工作：

设置一个UpdateRequestProcessor，你可以从TikaLanguageIdentifierUpdateProcessorFactory开始，因为它也使用Tika，也许你可以重用一些东西
您连接URP，以便/ update处理程序
每次添加文档时URP都会启动
在URP代码中，您：检索pdf，以编程方式使用Tika提取文本，并将其添加到目标字段

答案 1 :(得分：0)

当您使用ExtractingRequestHandler时可以map content to a specific field and supply specific field values（如果您自己使用Tika，则会将内容作为常规文档字段包含在内）。

要将内容映射到其他字段，请使用fmap：fmap.content=link_value，并要包含文字值（即您要编制索引的文档的网址），请使用literal ：literal.link=http://example.com/test.pdf（根据需要应用URL转义）。