在SOLR中使用TIKA索引指向pdf的URL

时间:2017-03-13 12:17:40

标签: solr apache-tika

我要求传入的更新请求具有类似" link":" htp://example.pdf" (以及其他一些元数据)我必须解析PDF文档并将其编入索引,如#34; link_value":" PDF提取的内容"。这在SOLR中是否可以使用tika?

注意:我不能使用数据导入处理程序,因为传入的请求不是来自单一来源,而是通过外部源完成

2 个答案:

答案 0 :(得分:1)

所以,如果我理解正确的话:

  • 您正在接受一些/更新电话以添加一些文档
  • 该文档包含一个'链接'要检索的字段,使用Tika提取文本,并将索引编入另一个字段

是的,您可以在Solr中执行此操作,但您需要做一些工作:

  1. 设置一个UpdateRequestProcessor,你可以从TikaLanguageIdentifierUpdateProcessorFactory开始,因为它也使用Tika,也许你可以重用一些东西
  2. 您连接URP,以便/ update处理程序
  3. 使用它
  4. 每次添加文档时URP都会启动
  5. 在URP代码中,您:检索pdf,以编程方式使用Tika提取文本,并将其添加到目标字段

答案 1 :(得分:0)

当您使用ExtractingRequestHandler时可以map content to a specific field and supply specific field values(如果您自己使用Tika,则会将内容作为常规文档字段包含在内)。

要将内容映射到其他字段,请使用fmapfmap.content=link_value,并要包含文字值(即您要编制索引的文档的网址),请使用literalliteral.link=http://example.com/test.pdf(根据需要应用URL转义)。