solr-cell搜索适用于某些pdf而不适用于其他pdf

时间:2011-05-09 23:28:49

标签: solr

我一直在寻找两天而且找不到答案。

我在recat上安装了在tomcat 6上运行的Ubuntu服务器上的solr。我添加了solr-cell jar和tika库。

我可以运行一个curl命令,该命令适用于某些pdf文件并对它们编制索引,但它并不适用于其他文件。起初我认为有些文件已损坏,但似乎并非如此。在我看来,在工作和不工作之间没有任何重大差异。

我得到的错误是500错误 - see example here

我提出的卷曲请求是:

$ curl 'http://mysolrserver.com:port/solr/update/extract?map.content=text&map.stream_name=id&extractOnly=true&commit=true' -F "file=@/absolute/path/to/file.pdf"

这适用于某些PDF文件,而不是其他文件。

我相信我安装了solr 1.4.0。

任何帮助将不胜感激 - 谢谢

- EDIT-- 如果有帮助的话,我正在使用Ubuntu 10.04.1。

2 个答案:

答案 0 :(得分:1)

NullPointerException可能是一个错误。将其报告给PDFBox和/或Tika

答案 1 :(得分:0)

确定solr的夜间快照使用PDFBox 1.3.1,而不是使用0.7。*的当前稳定版,这是相当多的版本更改。

我可以使用此快照版本的solr索引所有pdf。在我看来这将是一件事 修复了下一个稳定版本。