嗨,当我来到Solr时,我是一个天真的用户。请指导我以下障碍。
1) Solr Index PDF文档
已尝试解决方案
我使用tika-app 0.9.jar将输入PDF文件中的内容提取到文本文件中。现在我正在尝试编写一个java代码来将文档索引到Solr。
2)将它们发布到远程服务器
我需要将文档或索引发布到中央远程服务器。可以使用curl命令。
此致 巴拉吉。
答案 0 :(得分:2)
1)Solr Index PDF文档 - 我相信Solr会为您做到这一点。 You can use Solr's http interface或SolrJ。 2)将索引发布到远程服务器 - Solr replication可能适合该帐单。
答案 1 :(得分:0)
假设PDF在Web服务器上,您可以使用Nutch来获取和解析它们,然后通过其HTTP接口将索引推送到Solr。