我一直在尝试索引扫描的PDF(每个页面都是图像)。我可以使用 apache-tika 1.6 提取内容。现在我期待链接/覆盖solr的tika与tika 1.6的jar 。我曾尝试将这些罐子复制到solr/contrib/extraction
。我已经尝试过这个问题中提到的步骤Configuring Tika With Solr仍然没有运气。
如果我使用此命令curl "http://localhost:8983/solr/update/extract?literal.id=2&literal.title=Test&commit=true&fmap.content=text" -F "myfile=@1.png"
它正确索引并返回正确的结果,但它不适用于pdf。
如果我尝试将扫描的pdf编入索引,我attr_text
\n\n\n\n\n undefined \n\n\n
<{1}}