使用Apache Tika和Solr时的关键点/挑战

时间:2012-04-17 01:44:52

标签: solr apache-tika

最近我参与了一项任务,其中一部分需要使用Apache Solr(用于文档搜索)和Apache Tika(从文档中提取元文本或纯文本)

我还没有整合Solr和tika,但我已经单独与他们合作我可能有一些与Apache Solr和Apache Tika有关的问题,可能是初学者级别或平均水平。

以下类型的实践我使用Solr,例如创建了一个虚拟数据库,编写了一个程序,配置了 - schema.xml的东西,运行了Solr服务器,以及从数据库中获取文件并存储在Solr Document Index中的程序,一个简单的客户端通过JSON接口从Solr获取数据,制作了一个程序这使得MySQL数据库与Apache的Solr文档索引保持同步。

以下类型的实践我用tika例如编译和安装Tika,了解其文档解析功能。   .. 我的示例任务声明: 我的项目的一部分需要存储大约100,000个文档(这些100,000(Doc,PDF,Txt)文档的数据由Apache tika提取并推送到MySql的数据库,后来推送到apache Solr的文档数据库)全文搜索并通过客户端界面(浏览器)搜索它们

  • 在简单的程序化级别中,此任务将完成,

我想了解与Solr管理索引或其他相关的挑战,例如

**在高级水平上是否需要优化Solr的开源代码?

**虽然Solr以适当的方式工作,但它是否提供了任何特定的挑战?

**最初需要考虑的关键事项是,Solr应该以正确的方式工作。

**您认为开发哪种额外工具来监控Solr的工作吗?

希望你能得到与我有问题有关的想法吗?

**我也想知道如果你有任何使用apache Tika和apache Solr的经验,还有任何挑战或关键事项需要考虑?

您是否想要推荐和特定来源或者如果您有任何文件或任何您认为有用的文件。

0 个答案:

没有答案