我在Solr中使用ExtractingRequestHandler获取文档内容并将其编入索引。它适用于所有Microsoft文档,但对于PDF,提取的内容为空。我也尝试过使用curl的extractOnly = true,这也只返回空体。
我在相同的文档上独立使用了TIKA,并且提取内容很好。不同之处在于独立完成时我使用的是BodyContentHander,而不是Solr使用的SoloContentHandler。有人见过这个吗?
我真的宁愿让Solr处理它,而不是使用Tika来提取Solr之外的内容。
答案 0 :(得分:1)
我在解决这个问题之前已经处理好几个小时了 - 我正在以非二进制模式打开我的PDF,然后将它们提供给solr,直到文件中的第一个EOF字符。 Solr仍然会从文件中提取元数据(因为它显示在PDF的标题中),但会在其响应中返回一个空的body标记。
这可能不适用于原始海报,但它可能真的有助于其他人浪费时间。