应用错误收集

我一直在尝试索引扫描的PDF（每个页面都是图像）。我可以使用 apache-tika 1.6 提取内容。现在我期待链接/覆盖solr的tika与tika 1.6的jar 。我曾尝试将这些罐子复制到solr/contrib/extraction。我已经尝试过这个问题中提到的步骤Configuring Tika With Solr仍然没有运气。如果我使用此命令curl "http://localhost:8983/solr/update/extract?literal.id=2&literal.title=Test&commit=true&fmap.content=text" -F "myfile=@1.png"它正确索引并返回正确的结果，但它不适用于pdf。如果我尝试将扫描的pdf编入索引，我attr_text \n\n\n\n\n undefined \n\n\n <{1}}

链接tika 1.16与solr 6.5.1

0 个答案: