从Rails应用程序(Word,PDF,Excel等)搜索附件

时间:2011-10-12 11:14:38

标签: ruby-on-rails search attachment apache-tika

我在Stack Overflow上的第一篇帖子请你温柔!我即将为客户启动一个新的Ruby on Rails(3.1)项目。他们的要求之一是有一个搜索引擎,它将索引大约2,000个文档,这些文档是PDF,Word,Excel和HTML的混合。

我原本希望使用思考 - 狮身人面像或Texticle(最受欢迎的https://www.ruby-toolbox.com/categories/rails_search.html),但据我所知:

所以我有两个选择:

  1. 选择其他搜索工具
  2. 尝试将附件的纯文本版本提取到数据库中以供思考 - sphinx阅读
  3. 您推荐哪种方法?

    如果是不同的搜索工具,哪一个?我的要求非常基本,所以我真的很喜欢一个很容易设置的,并且有很多文档,示例和教程!

    如果它正在解压缩,您是否可以推荐常用文件类型的提取器,如PDF,Word,Excel和HTML?

    谢谢大家。真的很感谢你的帮助。

2 个答案:

答案 0 :(得分:2)

我之前没有做过二进制文件索引,但显然Solr支持它,请参阅Indexing files with SPHINX/ultrasphinxhttp://wiki.apache.org/solr/ExtractingRequestHandler Solr有很多可用的宝石,太阳黑子似乎是一个受欢迎的宝石http://outoftime.github.com/sunspot/虽然太阳黑子似乎没有内置支持Solr Cells,但似乎有一些工作进入它https://github.com/tomasc/sunspot_cell可能有更好的选择,但这应该会给你一个很好的起点。

答案 1 :(得分:1)

只是为了更新这个。我决定采用的方法是:

尝试将附件的纯文本版本提取到数据库中,以便思考sphinx阅读

具体来说,我将做以下事情:

看起来就像调用java -jar tika-app-0.10.jar -t [file]一样简单,但如果结果更复杂,我会发布我的经验!