应用错误收集

时间：2011-10-12 11:14:38

标签： ruby-on-rails search attachment apache-tika

我在Stack Overflow上的第一篇帖子请你温柔！我即将为客户启动一个新的Ruby on Rails（3.1）项目。他们的要求之一是有一个搜索引擎，它将索引大约2,000个文档，这些文档是PDF，Word，Excel和HTML的混合。

我原本希望使用思考 - 狮身人面像或Texticle（最受欢迎的https://www.ruby-toolbox.com/categories/rails_search.html），但据我所知：

Texticle需要PostgreSQL。我在使用MySQL。
thinking-sphinx不会对文件系统上的文件编制索引。
即使我将附件保存到数据库中，思考 - sphinx仍然无效，因为它需要纯文本（根据http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ff）

所以我有两个选择：

您推荐哪种方法？

如果是不同的搜索工具，哪一个？我的要求非常基本，所以我真的很喜欢一个很容易设置的，并且有很多文档，示例和教程！

如果它正在解压缩，您是否可以推荐常用文件类型的提取器，如PDF，Word，Excel和HTML？

谢谢大家。真的很感谢你的帮助。

答案 0 :(得分：2)

我之前没有做过二进制文件索引，但显然Solr支持它，请参阅Indexing files with SPHINX/ultrasphinx和 http://wiki.apache.org/solr/ExtractingRequestHandler Solr有很多可用的宝石，太阳黑子似乎是一个受欢迎的宝石http://outoftime.github.com/sunspot/虽然太阳黑子似乎没有内置支持Solr Cells，但似乎有一些工作进入它https://github.com/tomasc/sunspot_cell可能有更好的选择，但这应该会给你一个很好的起点。

答案 1 :(得分：1)

只是为了更新这个。我决定采用的方法是：

尝试将附件的纯文本版本提取到数据库中，以便思考sphinx阅读

具体来说，我将做以下事情：

看起来就像调用java -jar tika-app-0.10.jar -t [file]一样简单，但如果结果更复杂，我会发布我的经验！