我要求传入的更新请求具有类似" link":" htp://example.pdf" (以及其他一些元数据)我必须解析PDF文档并将其编入索引,如#34; link_value":" PDF提取的内容"。这在SOLR中是否可以使用tika?
注意:我不能使用数据导入处理程序,因为传入的请求不是来自单一来源,而是通过外部源完成
答案 0 :(得分:1)
所以,如果我理解正确的话:
是的,您可以在Solr中执行此操作,但您需要做一些工作:
答案 1 :(得分:0)
当您使用ExtractingRequestHandler
时可以map content to a specific field and supply specific field values(如果您自己使用Tika,则会将内容作为常规文档字段包含在内)。
要将内容映射到其他字段,请使用fmap
:fmap.content=link_value
,并要包含文字值(即您要编制索引的文档的网址),请使用literal
:literal.link=http://example.com/test.pdf
(根据需要应用URL转义)。