Solr索引PDF文档并将其发布到远程服务器

时间:2011-06-26 07:56:59

标签: curl indexing solr apache-tika pdftotext

嗨,当我来到Solr时,我是一个天真的用户。请指导我以下障碍。

1) Solr Index PDF文档

已尝试解决方案

我使用tika-app 0.9.jar将输入PDF文件中的内容提取到文本文件中。现在我正在尝试编写一个java代码来将文档索引到Solr。

2)将它们发布到远程服务器

我需要将文档或索引发布到中央远程服务器。可以使用curl命令。

此致 巴拉吉。

2 个答案:

答案 0 :(得分:2)

1)Solr Index PDF文档 - 我相信Solr会为您做到这一点。 You can use Solr's http interfaceSolrJ。 2)将索引发布到远程服务器 - Solr replication可能适合该帐单。

答案 1 :(得分:0)

假设PDF在Web服务器上,您可以使用Nutch来获取和解析它们,然后通过其HTTP接口将索引推送到Solr。