应用错误收集

时间：2009-12-30 22:34:44

标签： pdf solr apache-tika solr-cell

我在Solr中使用ExtractingRequestHandler获取文档内容并将其编入索引。它适用于所有Microsoft文档，但对于PDF，提取的内容为空。我也尝试过使用curl的extractOnly = true，这也只返回空体。

我在相同的文档上独立使用了TIKA，并且提取内容很好。不同之处在于独立完成时我使用的是BodyContentHander，而不是Solr使用的SoloContentHandler。有人见过这个吗？

我真的宁愿让Solr处理它，而不是使用Tika来提取Solr之外的内容。

答案 0 :(得分：1)

我在解决这个问题之前已经处理好几个小时了 - 我正在以非二进制模式打开我的PDF，然后将它们提供给solr，直到文件中的第一个EOF字符。 Solr仍然会从文件中提取元数据（因为它显示在PDF的标题中），但会在其响应中返回一个空的body标记。

这可能不适用于原始海报，但它可能真的有助于其他人浪费时间。